百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

一个pdf转docx的Python库 pdf转换work

liuian 2024-12-29 04:28 41 浏览

前言

pdf文件转换成word文件是一个非常常见的操作,我相信,大部分人的免费解决方案是使用一些在线的转换服务,但是这里会有个数据泄露的问题。本文介绍一个开源免费的本地转换工具,pdf2docx

安装pdf2docx

安装方法非常简单,使用pip指令,执行

pip install pdf2docx

安装成功后,除了基础的库之外,pdf2docx还为我们提供了可执行文件pdf2docx

日常使用的话,直接使用可执行文件就能够进行pdfdocx的转换;如果需要在python代码中使用,那么,使用其提供的api也能够达到目的。

命令行的使用

通过pdf2docx --help可以查看命令行的具体帮助信息

INFO: Showing help with the command 'pdf2docx -- --help'.

NAME
    pdf2docx - Command line interface for ``pdf2docx``.

SYNOPSIS
    pdf2docx COMMAND | -

DESCRIPTION
    Command line interface for ``pdf2docx``.

COMMANDS
    COMMAND is one of the following:

     convert
       Convert pdf file to docx file.

     debug
       Convert one PDF page and plot layout information for debugging.

     gui
       Simple user interface.

     table
       Extract table content from pdf pages.

上述帮助列出了pdf2docx支持的指令,这里我们主要了解下convertgui

  • convert
  • 这是它的核心功能,convert本身也提供了很多的参数,可以通过pdf2docx convert --help来查看,这样的写法同样适用于其它指令,后面的我们就不再详细列出了
(base) PS C:\Users\Administrator> pdf2docx.exe convert --help
INFO: Showing help with the command 'pdf2docx convert -- --help'.

NAME
    pdf2docx convert - Convert pdf file to docx file.

SYNOPSIS
    pdf2docx convert PDF_FILE <flags>

DESCRIPTION
    Convert pdf file to docx file.

POSITIONAL ARGUMENTS
    PDF_FILE
        Type: str
        PDF filename to read from.

FLAGS
    --docx_file=DOCX_FILE
        Type: Optional[str]
        Default: None
        docx filename to write to. Defaults to None.
    --password=PASSWORD
        Type: Optional[str]
        Default: None
        Password for encrypted pdf. Default to None if not encrypted.
    --start=START
        Type: int
        Default: 0
        First page to process. Defaults to 0.
    --end=END
        Type: Optional[int]
        Default: None
        Last page to process. Defaults to None.
    --pages=PAGES
        Type: Optional[list]
        Default: None
        Range of pages. Defaults to None.
    Additional flags are accepted.
        Configuration parameters.

        .. note

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS

由上可知,要转换pdf里所有的页面,只需执行

pdf2docx.exe convert test.pdf test.docx

从第3页开始,直到结束

pdf2docx.exe convert test.pdf test.docx --start=2

从开始到第10页

pdf2docx.exe convert test.pdf test.docx --end=10

从第2页到第5页

pdf2docx.exe convert test.pdf test.docx --start=1 --end=5

要特别注意,这里的startend都是从0开始的

当然,不连续的页面也是可以一次性转换,比如

pdf2docx.exe convert test.pdf test.docx --pages=0,2,4

如果pdf是加密的,可以这样转换

pdf2docx.exe convert test.pdf test.docx --password=PASSWORD
  • gui 如果你不习惯用命令行,pdf2docx也提供了一个简单的图形界面,在cmd中敲入pdf2docx gui就可以调出来。真的是很粗糙,按钮的文字都没有显示全,不过功能还是ok的。
  • pdf2docx

API的使用

如果要在python中实现pdfdocx的转换,pdf2docx为我们提供了完整的api,来看一个最简单的示例

from pdf2docx import Converter


if __name__ == "__main__":

    pdf_file = "test.pdf"
    docx_file = "test.docx"

    conv = Converter(pdf_file)
    conv.convert(docx_file, start=0, end=None)
    conv.close()

更详细的API文档,可以参考链接 https://dothinking.github.io/pdf2docx/modules.html

局限性

目前的pdf2docx版本,仅适用于基于文本的pdf,阅读习惯是从左到右。大家在使用的时候需要注意。

参考资料

  • https://github.com/dothinking/pdf2docx

相关推荐

2023年最新微信小程序抓包教程(微信小程序 抓包)

声明:本公众号大部分文章来自作者日常学习笔记,部分文章经作者授权及其他公众号白名单转载。未经授权严禁转载。如需转载,请联系开百。请不要利用文章中的相关技术从事非法测试。由此产生的任何不良后果与文...

测试人员必看的软件测试面试文档(软件测试面试怎么说)

前言又到了毕业季,我们将会迎来许多需要面试的小伙伴,在这里呢笔者给从事软件测试的小伙伴准备了一份顶级的面试文档。1、什么是bug?bug由哪些字段(要素)组成?1)将在电脑系统或程序中,隐藏着的...

复活,视频号一键下载,有手就会,长期更新(2023-12-21)

视频号下载的话题,也算是流量密码了。但也是比较麻烦的问题,频频失效不说,使用方法也难以入手。今天,奶酪就来讲讲视频号下载的新方案,更关键的是,它们有手就会有用,最后一个方法万能。实测2023-12-...

新款HTTP代理抓包工具Proxyman(界面美观、功能强大)

不论是普通的前后端开发人员,还是做爬虫、逆向的爬虫工程师和安全逆向工程,必不可少会使用的一种工具就是HTTP抓包工具。说到抓包工具,脱口而出的肯定是浏览器F12开发者调试界面、Charles(青花瓷)...

使用Charles工具对手机进行HTTPS抓包

本次用到的工具:Charles、雷电模拟器。比较常用的抓包工具有fiddler和Charles,今天讲Charles如何对手机端的HTTS包进行抓包。fiddler抓包工具不做讲解,网上有很多fidd...

苹果手机下载 TikTok 旧版本安装包教程

目前苹果手机能在国内免拔卡使用的TikTok版本只有21.1.0版本,而AppStore是高于21.1.0版本,本次教程就是解决如何下载TikTok旧版本安装包。前期准备准备美区...

【0基础学爬虫】爬虫基础之抓包工具的使用

大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬...

防止应用调试分析IP被扫描加固实战教程

防止应用调试分析IP被扫描加固实战教程一、概述在当今数字化时代,应用程序的安全性已成为开发者关注的焦点。特别是在应用调试过程中,保护应用的网络安全显得尤为重要。为了防止应用调试过程中IP被扫描和潜在的...

一文了解 Telerik Test Studio 测试神器

1.简介TelerikTestStudio(以下称TestStudio)是一个易于使用的自动化测试工具,可用于Web、WPF应用的界面功能测试,也可以用于API测试,以及负载和性能测试。Te...

HLS实战之Wireshark抓包分析(wireshark抓包总结)

0.引言Wireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接...

信息安全之HTTPS协议详解(加密方式、证书原理、中间人攻击 )

HTTPS协议详解(加密方式、证书原理、中间人攻击)HTTPS协议的加密方式有哪些?HTTPS证书的原理是什么?如何防止中间人攻击?一:HTTPS基本介绍:1.HTTPS是什么:HTTPS也是一个...

Fiddler 怎么抓取手机APP:抖音、小程序、小红书数据接口

使用Fiddler抓取移动应用程序(APP)的数据接口需要进行以下步骤:首先,确保手机与计算机连接在同一网络下。在计算机上安装Fiddler工具,并打开它。将手机的代理设置为Fiddler代理。具体方...

python爬虫教程:教你通过 Fiddler 进行手机抓包

今天要说说怎么在我们的手机抓包有时候我们想对请求的数据或者响应的数据进行篡改怎么做呢?我们经常在用的手机手机里面的数据怎么对它抓包呢?那么...接下来就是学习python的正确姿势我们要用到一款强...

Fiddler入门教程全家桶,建议收藏

学习Fiddler工具之前,我们先了解一下Fiddler工具的特点,Fiddler能做什么?如何使用Fidder捕获数据包、修改请求、模拟客户端向服务端发送请求、实施越权的安全性测试等相关知识。本章节...

fiddler如何抓取https请求实现手机抓包(100%成功解决)

一、HTTP协议和HTTPS协议。(1)HTTPS协议=HTTP协议+SSL协议,默认端口:443(2)HTTP协议(HyperTextTransferProtocol):超文本传输协议。默认...