百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

python使用fitz模块提取pdf中的图片

liuian 2024-12-29 04:28 279 浏览

原以为这是一件很简单的过程,在百度上搜寻无果后。于是去查找官方文档,根据官方文档

https://pymupdf.readthedocs.io/en/latest/module.html#extracting-fonts-and-images

测试发现确实能够提取相应的图片信息

python -m fitz extract -h
usage: fitz extract [-h] [-images] [-fonts] [-output OUTPUT] [-password PASSWORD]
[-pages PAGES]
input
 
--------------------- extract images and fonts to disk --------------------
 
positional arguments:
input PDF filename
 
optional arguments:
-h, --help show this help message and exit
-images extract images
-fonts extract fonts
-output OUTPUT output directory, defaults to current
-password PASSWORD password
-pages PAGES only consider these pages, format: 1,5-7,50-N

但是在使用pycharm调试过程中报错

AttributeError: module 'fitz' has no attribute 'open'

于是找到"fitz\__main__.py"文件复制出来单独运行,运行一切正常

在看源码过程中

发下python中居然还会有作者关心内存的释放,这是我在写java和python过程中从没考虑的问题。

通过这种方式能够将文件中的图片抽取出来,但是不能找到图片被引用的具体信息,例如位置和引用次数。

python比Java方便的是,对于引用的包可以通过pycharm直接查看源码,于是继续搜寻源码看看在哪里可以找到有用的信息。

在搜寻过程中找到get_image_info这个函数,里面会描述图片所在位置的具体位置信息.

整理后的具体代码如下

import fitz
import cv2
import numpy as np
import utils.pymupdf_utils as pdf_util

path = r'南大路.pdf'
#加载pdf文件,可以参考源码中的open_file
doc = fitz.open(path)
#获取当前页的图片文件,可以用下面两种方式,也可以用for循环遍历每一页
# img_list = doc.get_page_images(0)
img_list = doc[0].getImageList()
for item in img_list:
    #提取图片字典,recoverpix函数参考__main__.py
    img_dict = pdf_util.recoverpix(doc, item)
    width, height, data = img_dict['width'], img_dict['height'], img_dict['image']
    # 将字节数组转为np格式数据
    np_data = np.frombuffer(data, np.uint8)
    # bmp格式数据转图片
    if len(np_data) % (width * height) == 0:
        img = np.reshape(np_data, (height, width, len(np_data) // (width * height)))
    else:
        # jpg或png格式转图片
        img = cv2.imdecode(np_data, cv2.IMREAD_ANYCOLOR)
    cv2.imshow('123',img)
    cv2.waitKey(0)

在查看官方源码过程中,感觉代码比较严谨,虽然没有过多的注释非常通俗易懂。看样子过段时间得再将《代码简洁之道》再好好看一遍

相关推荐

iOS9不越狱也能用:苹果Xcode 7编译安装第三方应用教程

在苹果iOS9正式版系统中,即使你不越狱现在也可以安装一些AppStore中根本不存在的应用程序,听上去感觉有些不可思议是吧,一起来看看这到底是怎么做到的。需要准备的东西:你需要准备一台Mac、X...

Python+Appium控制 iOS 真机,滑动、输入、点击全搞定!

移动端自动化测试中,Appium+iOS测试算是门槛稍高但非常关键的一环。很多测试同学面对XCUITest+真机操作时,总觉得“设备连不上”、“控件找不到”、“滑动失败”。先看效果今天我用...

从零到一:用Cursor和Xcode打造你的iOS App!

想要开发自己的iOSApp吗?跟随我们的教程,从前期准备到App上架,一步步教你如何实现!"步骤1:开发App的前期准备"设备和软件:你需要一台Mac电脑、免费的Xcode和Curs...

苹果向开发者推送visionOS 2.5的第四个测试版

近日,苹果面向开发者正式推送了visionOS2.5的第四个Beta开发者预览版,版本号为22O5467a。开发者只需打开设备端的设置应用,在相关选项中找到“开发者测试版”开关,即可开启下...

苹果向开发者推送visionOS 2.5的第一个测试版

苹果公司近日向其注册开发者推送了visionOS2.5更新的第一个Beta测试版,版本号为22O5442g。为了安装这一测试版,开发者们只需通过VisionPro设备上的“设置”应用...

iPhone 16 Pro Max Xcode首选,iPad Pro 2024开发利器

最佳开发者适配机型榜1.iPhone16ProMax(A18Pro模拟器优化)2.iPadPro2024(M4芯片多任务)3.iPhone15Pro(Xcode调试工具)4.iP...

react native中自定义 URL Scheme并跳转到指定页面

在ReactNative中实现类似Android的自定义URLScheme(myapp://open)并跳转到指定页面,可以通过以下步骤完成。ReactNative提供了对深度链接(...

传闻暗示 iPhone 将推出桌面模式(苹果推出页面怎样才能保持推出前的状态)

最近,除了有关iOS视觉效果大幅重新设计和更像Mac的iPadOS体验的传闻外,还有一个有趣的传闻正在流传:iPhone可能会获得某种桌面模式。MajinBu上周写道,一些匿名消息人士称,...

苹果visionOS 1.3首个测试版开启推送 建议谨慎下载

【CNMO科技消息】据外媒报道,开发者现已能够下载体验visionOS1.3首个测试版,只需将其安装在VisionPro上即可。这一版本的发布紧随5月7日释出的第五个测试版之后,而在此之前,4月3...

XcodeBuildMCP 让 AI 代理能够通过标准化接口与 Xcode 项目进行交互

项目介绍XcodeBuildMCP是一个ModelContextProtocol(MCP)服务器,提供与Xcode相关的工具,以便与AI助手和其他MCP客户端集成。它旨在通过标准化接口优化开发...

每日学习“Xcode”是什么呢?(xcode是开发什么的)

Xcode是苹果公司为macOS系统量身打造的集成开发环境(IDE),专为开发苹果生态系统内的各类应用程序,其中也包括游戏。以下从特点、安装使用、在游戏开发中的应用方面详细介绍。特点全平台支持:...

升级wpsjs工具包,创建和发布wps加载项

前一段时间wpsjs工具包不能创建、调试和发布wps加载项,目前已修复,请更新到最新版。wpsjs工具包升级到最新版可以创建和发布wps加载项。执行以下命令:npmupdate-gwpsjs...

如何在 TypeScript 中使用Enum(枚举)

在TypeScript中,枚举或枚举类型是具有一组常量值的常量长度的数据结构。这些常量值中的每一个都称为枚举的成员。在设置只能是一定数量的可能值的属性或值时,枚举很有用。一个常见的例子是一副扑克...

Vue独立组件——11个最佳Vue.js日期选择器组件

介绍本文主要介绍几个Vue的时间日期选择器组件,目的在于让开发者们多一些选择,不管是从功能还是从样式,都可以选择一个适合的组件,这些组件没有绝对的好与不好,就看个人如何选择了,以下分别介绍十一个日期选...

ABP Framework 手动升级指南:从6.0.1升级到7.0.0

ABP7.0.0正式版已经发布,ABP-Framework-All-In-One项目同步升级。LeptonXLiteTheme目前还没有包含在源码解决方案中,还是以Nuget包提供,目...