百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

python使用fitz模块提取pdf中的图片

liuian 2024-12-29 04:28 314 浏览

原以为这是一件很简单的过程,在百度上搜寻无果后。于是去查找官方文档,根据官方文档

https://pymupdf.readthedocs.io/en/latest/module.html#extracting-fonts-and-images

测试发现确实能够提取相应的图片信息

python -m fitz extract -h
usage: fitz extract [-h] [-images] [-fonts] [-output OUTPUT] [-password PASSWORD]
[-pages PAGES]
input
 
--------------------- extract images and fonts to disk --------------------
 
positional arguments:
input PDF filename
 
optional arguments:
-h, --help show this help message and exit
-images extract images
-fonts extract fonts
-output OUTPUT output directory, defaults to current
-password PASSWORD password
-pages PAGES only consider these pages, format: 1,5-7,50-N

但是在使用pycharm调试过程中报错

AttributeError: module 'fitz' has no attribute 'open'

于是找到"fitz\__main__.py"文件复制出来单独运行,运行一切正常

在看源码过程中

发下python中居然还会有作者关心内存的释放,这是我在写java和python过程中从没考虑的问题。

通过这种方式能够将文件中的图片抽取出来,但是不能找到图片被引用的具体信息,例如位置和引用次数。

python比Java方便的是,对于引用的包可以通过pycharm直接查看源码,于是继续搜寻源码看看在哪里可以找到有用的信息。

在搜寻过程中找到get_image_info这个函数,里面会描述图片所在位置的具体位置信息.

整理后的具体代码如下

import fitz
import cv2
import numpy as np
import utils.pymupdf_utils as pdf_util

path = r'南大路.pdf'
#加载pdf文件,可以参考源码中的open_file
doc = fitz.open(path)
#获取当前页的图片文件,可以用下面两种方式,也可以用for循环遍历每一页
# img_list = doc.get_page_images(0)
img_list = doc[0].getImageList()
for item in img_list:
    #提取图片字典,recoverpix函数参考__main__.py
    img_dict = pdf_util.recoverpix(doc, item)
    width, height, data = img_dict['width'], img_dict['height'], img_dict['image']
    # 将字节数组转为np格式数据
    np_data = np.frombuffer(data, np.uint8)
    # bmp格式数据转图片
    if len(np_data) % (width * height) == 0:
        img = np.reshape(np_data, (height, width, len(np_data) // (width * height)))
    else:
        # jpg或png格式转图片
        img = cv2.imdecode(np_data, cv2.IMREAD_ANYCOLOR)
    cv2.imshow('123',img)
    cv2.waitKey(0)

在查看官方源码过程中,感觉代码比较严谨,虽然没有过多的注释非常通俗易懂。看样子过段时间得再将《代码简洁之道》再好好看一遍

相关推荐

10种常见的MySQL错误,你可中招?

【51CTO.com快译】如果未能对MySQL8进行恰当的配置,您非但可能遇到无法顺利访问、或调用MySQL的窘境,而且还可能给真实的应用生产环境带来巨大的影响。本文列举了十种MySQL...

MySQL主从如何保证数据一致性

MySQL主从(主备)搭建请点击基于Spring的数据库读写分离。MySQL主备基本原理假设主备切换前,我们的主库是节点A,节点B是节点A的备库,客户端的读写都是直接访问节点A,节点B只是将A的更新同...

MySQL低版本升级操作流程

(关注“数据库架构师”公众号,提升数据库技能,助力职业发展)0-升级背景MySQL5.5发布于2010年,至今已有十年历史,官方已经停止更新。2008年发布的MySQL5.1版本,在2018年...

MySQL数据库知识

MySQL是一种关系型数据库管理系统;那废话不多说,直接上自己以前学习整理文档:查看数据库命令:(1).查看存储过程状态:showprocedurestatus;(2).显示系统变量:show...

Mysql 8.4数据库安装、新建用户和数据库、表单

1、下载MySQL数据库yuminstall-ywgetperlnet-toolslibtirpc#安装wget和perl、net-tools、libtirpcwgethtt...

mysql8.0新功能介绍

MySQL8.0新特性集锦一、默认字符集由latin1变为utf8mb4在8.0版本之前,默认字符集为latin1,utf8指向的是utf8mb3,8.0版本默认字符集为utf8mb4,utf8默...

全网最详细解决Windows下Mysql数据库安装后忘记初始root 密码方法

一、准备重置root的初始化密码Win+R键启动命令输入窗口;输入cmd打开命令执行窗口;##界面如下##输入命令:netstopmysqld#此操作会停止当前运行的...

互联网大厂面试:MySQL使用grant授权后必须flush privilege吗

从我上大学时,数据库概论老师就告诉我,MySQL使用grant对用户授权之后,一定记得要用flushprivilege命令刷新缓存,这样才能使赋权命令生效。毕业工作以后,在很多的技术文档上,仍然可以...

# mysql 8.0 版本无法使用 sqlyog 等图形界面 登录 的解决方法

30万以下的理想L6来了##mysql8.0版本无法使用sqlyog等图形界面登录的解决方法当我们在cmd下登录mysql时正常时,用sqlyog等图形界面连接数据库时却...

MySQL触发器介绍

前言:在学习MySQL的过程中,可能你了解过触发器的概念,不清楚各位是否有详细的去学习过触发器,最近看了几篇关于触发器的文档,分享下MySQL触发器相关知识。1.触发器简介触发器即trigg...

管理员常用的MySQL命令汇总(一)

以下是管理员常用的MySQL命令:以管理员身份连接到MySQL:mysql-uroot-p创建新的MySQL用户:CREATEUSER'username'@'...

Linux(CentOS) 在线安装MySQL8.0和其他版本,修改root密码

一:安装MySQL数据库1),下载并安装MySQL官方的YumRepositorymysql官方仓库地址:https://dev.mysql.com/downloads/repo/yum/选择自...

解决 MySQL 8.0 一直拒绝 root 登录问题

Accessdeniedforuser'root'@'localhost'(usingpassword:YES)这个错误在网上搜一下,能看到非常多的此类...

大模型MCP之MYSQL安装

前言学习大模型的时候需要一个mysql,原因还是在公司使用电脑的时候不允许按照Docker-Desktop,我的宿主机其实是MAC,我习惯上还是在centsos上面安装,就发现这件过去很简单的事情居然...

MySQL ERROR 1396

ERROR1396(HY000):OperationCREATEUSERfailedfor'usera'@'%'问题描述mysql>create...