Python将PDF转为png图像 用python把pdf转成word
liuian 2024-12-29 04:28 32 浏览
最近开发办公类相关项目,在办公类项目不可避免的就是处理 Excel、Word、Pdf 之类的文档,需要将文档格式进行转换,以便于显示、打印等的需要。今天,我们来看一下 PDF 文档转换为 png 图像的方法,便于在项目中没有好的显示 PDF 文档的方法下通过转换为 png 图像进行显示。
1.PyMuPDF 简介
在介绍 PyMuPDF 之前,先来了解一下 MuPDF,从命名形式中就可以看出,PyMuPDF 是 MuPDF 的 Python接口形式。
1.1MuPDF
MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。
MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度。
这个观察器很小,速度很快,但是很完整。它支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对 PDF 文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。
命令行工具允许您注释、编辑文档,并将文档转换为其他格式,如HTML、SVG、PDF和CBZ。您还可以使用Javascript编写脚本来操作文档。
1.2PyMuPDF
PyMuPDF 是支持 MuPDF 的Python绑定。
使用 PyMuPDF,你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外,大约10种流行的图像格式也可以像文档一样处理:“.png”,“.jpg”,“.bmp”,“.tiff”等。
2.PyMuPDF 安装
使用 pip 安装命令:
python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf
除了标准库,它没有强制性的外部依赖项。只有在安装了某些包时,才会有一些不错的方法
- Pillow:当使用 Pixmap.pil_save() 和 Pixmap.pil_tobytes() 时需要
- fontTools:当使用 Document.subset_fonts() 时需要
- pymupdf-fonts 是一个不错的字体选择,可以用于文本输出方法
导入库:
import fitz
查看版本:
import fitz
print(fitz.__doc__)
3.使用 PyMuPDF
3.1打开文档
doc = fitz.open(filename) # or fitz.Document(filename)
返回 Document 对象。
3.2 Document 的一些方法和属性
Method / Attribute | Description |
Document.page_count | 页数 (int) |
Document.metadata | 元数据 (dict) |
Document.get_toc() | 目录 (list) |
Document.load_page() | 读取页面 |
3.3 元数据
Key | Value |
producer | producer (producing software) |
format | format: ‘PDF-1.4’, ‘EPUB’, etc. |
encryption | encryption method used if any |
author | author |
modDate | date of last modification |
keywords | keywords |
title | title |
creationDate | date of creation |
creator | creating application |
subject | subject |
3.4 使用目录大纲
toc = doc.get_toc()
3.5 使用页面
获取某页面:
page = doc.load_page(pno) # loads page number 'pno' of the document (0-based)
page = doc[pno] # the short form
迭代页面:
for page in doc:
# do something with 'page'
# ... or read backwards
for page in reversed(doc):
# do something with 'page'
# ... or even use 'slicing'
for page in doc.pages(start, stop, step):
# do something with 'page'
3.6 呈现页面
获取页面内容的图像:
pix = page.get_pixmap()
3.7 保存页面为图像文件
pix.save("page-%i.png" % page.number)
4.示例代码
将 pdf 文件的每一页转换为 png 图像,代码如下:
# coding: utf-8
import sys
import fitz
# pdffilename 表示 PDF 文件名,全路径名
def arc2pdf(pdffilename: str):
doc = fitz.open(pdffilename)
for i in range(0, doc.page_count):
page = doc.load_page(i)
pix = page.get_pixmap()
pix.save("%s._%i.png" % (pdffilename, page.number))
if __name__ == '__main__':
if len(sys.argv) != 2:
print('参数错误!')
sys.exit(0)
pdffilename=sys.argv[1]
arc2pdf(pdffilename)
相关推荐
- Chrome浏览器必学实用技巧-建议收藏
-
谷歌Chrome是目前最流行的桌面浏览器,本文分享了一些实用的使用技巧,希望能够对大家的工作和生活提供一些助力。贴士:不同版本的Chrome,其功能或菜单可能存在细微差异。本文使用的Chrome浏览器...
- 如何使用 Chrome 中的检查元素工具
-
如何在Chrome中使用Inspect元素启动检查元素工具的最简单方法是右键单击网页上的任何内容。然后,只需单击列表底部的“检查”选项。通常,Element是默认启动的。如果没有,那么您可以...
- Chromedriver 在 Python 中查看源代码的方法
-
Python中可以属性来查看需要爬取的网站的源代码。对应具体的是:chrome.page_source需要注意的是首先需要导入包fromselenium.webdriverimportChro...
- 手机怎么查看HTML 文件
-
在手机端实现对HTML文件(包含本地文件和网页源代码)的查看,可借助多种途径和工具。以下为详细的操作步骤和实用的工具推荐:一、本地HTML文件的查看(一)利用浏览器打开定位文件:在手机的文件管...
- 防止学生查看答案,竟然让Chrome禁止查看源码功能
-
Chrome现在是很多人的主力浏览器,用户多了需求也会很多。Chrome每天都会收到很多意见和功能需求。然而有一个需求很奇怪,要求Chrome禁止查看网页源码的功能。这是怎么回事呢?1.问题背景我们都...
- 如何查看网页的HTML源代码?这里提供详细步骤
-
每个主要的互联网浏览器都允许用户查看任何网页的HTML(超文本标记语言)源代码。以下部分包含有关在每个主要浏览器中查看源代码的多种方法的信息。引言查看网页的源代码时,服务器处理的信息和代码不会出现。例...
- 如何在浏览器账中查看网页的HTML源代码?
-
浏览html网页,查看其源代码,可以帮助我们了解该版网页的信息以及架构,每个浏览器都是允许用户查看他们访问的任何网页的HTML源代码的。以下编程狮小师妹就介绍几个常见浏览器的查看网页HTML源代码...
- python基础快速入门
-
Python是一种简单易学且功能强大的编程语言,适合初学者入门学习,不论是就业还是做副业赚钱或者是提高自己办公效率都是不错的选择。1.安装Python下载Python:前往Python官...
- Python 如何创建一个 JSON 对象
-
我们可以使用下面的代码来在Python中创建一个JSON对象。importjsondata={}data['key']='value'json...
- 牛啊牛啊:C#/.NET一行代码把实体类类型转换为Json数据字符串
-
前言:刚好要做一个类似Swagger那种可以快速访问api接口和演示的功能,于是就把做的思路写到包里面去,给有需要的小伙伴提供学习和参考。首先,安装1.0.10以及以上版本的Wesky.Net.Op...
- 基于Jackson封装Json工具类:Java对象与JSON字符串的高效转换
-
在现代的Web开发和API设计中,JSON(JavaScriptObjectNotation)作为一种轻量级的数据交换格式被广泛使用。它易于人阅读和编写,同时也易于机器解析和生成。在Java生态系...
- Python数据持久化:JSON
-
编程派微信号:codingpy上周更新的《ThinkPython2e》第14章讲述了几种数据持久化的方式,包括dbm、pickle等,但是考虑到篇幅和读者等因素,并没有将各种方式都列全。本文将介绍...
- js中关于json语法和json遍历问题
-
什么是JSON?JSON英文全称JavaScriptObjectNotationJSON是一种轻量级的数据交换格式。JSON是独立的语言*JSON易于理解。json对象使用js语法,但...
- Python 使用 JsonPath 完成接口自动化测试中参数关联和数据验证
-
背景:接口自动化测试实现简单、成本较低、收益较高,越来越受到企业重视RESTFul风格的API设计大行其道JSON成为主流的轻量级数据交换格式痛点接口关联接口关联也称为关联参数。在应用业务接口...
- Spark读取kafka复杂嵌套json的最佳实践
-
随着互联网的更进一步发展,信息浏览、搜索以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化,对于实时性的要求进一步提升,而信息的交互和沟通正在从点对点往信息链甚至信息网的方向发展,这样必然带来...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
python使用fitz模块提取pdf中的图片
-
《人人译客》如何规划你的移动电商网站(2)
-
Jupyterhub安装教程 jupyter怎么安装包
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)