利用Python批量转换企业PDF年报为文本
liuian 2025-06-30 17:56 31 浏览
此前,我们介绍过,如何使用Python解析PDF文件:Python解析提取PDF文件的方法简介
现在,我们要对企业年报PDF文件进行批量转换,提出其中的文本。
转换方法:
直接进行转换,保存成对应的txt文本文件:
import pdfplumber
import os
import time
def pdf_to_txt_pdfplumber(pdf_path):
starttime = time.time()
print('开始转换',pdf_path)
output = pdf_path.split('.')[0] +'.txt'
with pdfplumber.open(pdf_path) as pdf:
with open(output, 'w', encoding='utf-8') as txt_file:
for page in pdf.pages:
page_text = page.extract_text()
if page_text:
txt_file.write(page_text + '\n')
print('转换完成,耗时:',time.time()-starttime)
# 获取当前目录下所有的pdf文件
files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]
for file in files:
pdf_to_txt_pdfplumber(file)这里我用两个PDF文件进行测试输出如下:
一般企业的年报在200-300页左右,可以转换一个文件的耗时还是较长的,此时,目录下生成了对应的txt文件:
一些想法:
- 转换单个PDF文件的耗时较长,所以如果能够直接获取文本,就可以省去转换这个步骤。这也是为什么之前我提到如果能够获取文本,尽量直接获取文本,实在没有的,再下载PDF进行转换
- 有一些PDF文件会解析失败,可能是因为这个PDF文件是直接由“图片”转换而成的,并非是直接由“文字”模式情况下输出的。
- 转换不了的怎么办?当成缺失值处理,在经管的研究中,现在的样本量越来越大,存在缺失值也是正常的情况,但是能够处理的尽量进行处理。
- 如何更好的管理数据?在这里,我们是将每个年报转换成了txt文件,实际上还是较为分散的。其实可以将他们全部储存到数据库中,在本地,sqlite是一个不错的选择,使用也较为方便。在存储数据库时可以添加一些我们需要的字段,例如企业名称,ID,年份,这样在后续的分析中会更加简单清晰。
关于如何保存到数据库,这里提供当时我的一些做法。
首先:创建数据库,设计好我们需要的字段,例如ID,年份,企业名称等。
import sqlite3
conn = sqlite3.connect('report.db') # 允许多线程访问
sql = '''
create table report(id integer primary key autoincrement,
company varchar, year varchar ,infos varchar)
'''
cursor = conn.cursor()
cursor.execute(sql)
conn.commit()以上几行代码就完成了数据库的创建:
在这里,我仅进行示范,就不添加更多字段了。
其次:改写原本的代码,写入数据库即可。
import pdfplumber
import os
import time
import sqlite3
conn = sqlite3.connect('report.db')
def pdf_to_txt_pdfplumber(pdf_path):
company = pdf_path.split('-')[0]
year = ''.join([i for i in pdf_path.split('-')[1] if i.isdigit()])
starttime = time.time()
print('开始转换',pdf_path)
all_page_text = ''
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
page_text = page.extract_text()
if page_text:
all_page_text = all_page_text + page_text
# 写入SQLITE
sql = ''' insert or replace into report(company,year,infos)
values("%s","%s","%s")
''' % (company, year, all_page_text.strip())
cursor = conn.cursor()
cursor.execute(sql)
conn.commit()
print('写入完成,耗时:',time.time()-starttime)
files = [i for i in os.listdir() if '.pdf' in i or '.PDF' in i]
for file in files:
pdf_to_txt_pdfplumber(file)
conn.close()执行结果:
可以看到,保存到数据库中更为简洁,更利于数据的管理和后续数据分析。
由于我们是读取文件目录下的所有PDF进行转换,所以可以将转换完成后的pdf文件移动或者删除,这样即使因为特殊原因需要重新转换的时候,也不会重复转换相同的文件。例如:
import shutil
# 移动到当前目录下done文件下
shutil.move(file_dir + '\/' + file, file_dir + '/done')相关推荐
- pe系统下载官网手机版(pe系统之家)
-
打开手机应用商店,选择windowspe,下载安装PE系统是一种维护用的系统,本身是很简陋的,什么常用功能都没有,后经一些爱好都修改、完善,现在成为可当临时系统用的精简系统。但PE系统当前种类很多,...
- 云骑士装机大师怎么激活win7
-
回答如下:要激活Windows7操作系统,您可以按照以下步骤进行操作:1.确保您的计算机已连接到互联网。2.打开“开始”菜单,点击“计算机”右键,选择“属性”。3.在系统属性窗口中,向下滚动到...
- vmware workstation使用教程
-
VMwareWorkstation15是一款虚拟机软件,可以在主机上模拟多个虚拟计算机环境。以下是使用VMwareWorkstation15的基本步骤:1.下载和安装软件:从VMware官方...
- windows7旗舰版64位多少钱(windows7旗舰版64位多少钱合适)
-
这两个都是64位的,唯一区别是后者集成SP1。win7旗舰版64位玉米系统比较稳定,不但稳定,运行速度也很快!WIN764位系统需要的电脑配置。最低配置CPU:1GHz32位或2G...
- 电脑黑屏了怎么重装系统(电脑黑屏怎么重装系统win10)
-
我觉着吧,题主的判断可能是不正确的黑屏开不了机指的是开机后显示屏无任何信号接入首先从电源出发,电源的cpu供电,主板供电,显卡供电,硬盘供电,每一项都要确保接触完整再到主板,主板上呢,cpu散热必须接...
- 三星官网正品查询(三星全新正品查询网站)
-
三星服务中心地址:http://support-cn.samsung.com/support/ServiceLocations.asp国家工信部电信设备进网管理网站查询移动设备真伪方式:方法一:网站查...
- 显示windows许可证即将过期
-
电脑提示Windows许可证即将到期,可以采取以下措施:检查许可证状态:首先需要确认许可证是否真的即将过期。可以在Windows设置中查看许可证状态,或者运行命令“slmgr/xpr”来检查许可证到...
- u盘看不到第二个分区(u盘不显示第二个分区)
-
u盘分区后不显示出来原因一般为以下三种:第一种情况:对于windows系统是只能识别U盘分区的。第二种情况:关于U盘的diskgenius分区是只能看到一个分区的第三种情况:这个U盘分区已经被隐藏了,...
- 小马激活重启电脑开不了机(小马激活重启后蓝屏怎么办)
-
1.无法激活2.小马激活工具可能无法激活的原因有很多,可能是因为软件本身存在bug或者与操作系统不兼容,也可能是因为网络连接问题或者输入的激活码有误。此外,小马激活工具可能需要特定的硬件或软件环境...
- windows7 破解版(windows 7旗舰版破解密码)
-
步骤/方法按Windows徽标键+R(运行窗口),打开cmd运行窗口。输入slmgr.vbs-xpr后回车。这时会弹出一个窗口显示Win7的激活状态。Windows7旗舰版属于微软公司开发的...
- 专业数据恢复(专业数据恢复需要什么设备)
-
1、移动硬盘损坏以后,电脑无法识别到硬盘信息,那么整个硬盘数据将全部丢失。2、如果能够换一台电脑识别到,即使打不开,只要能够格式化,就有希望回复数据。可以尝试制作U盘系统盘的方法,打开u盘系统盘制作程...
- 声卡怎么连接手机唱歌
-
1.首先是使用音频连接线把手机的耳机孔/数据口与声卡的【直播】插孔相连;同样使用音频线把手机与声卡的【伴奏】插孔相连;耳机连接在声卡的【耳麦】插孔;连接好后打开直播手机,进入直播软件,伴奏设备播放歌曲...
- iphone官网下载(苹果官网下载ios)
-
PP助手、同步推等手机助手都可以下载已经下架的应用,这类助手有很多,一搜一大把,而且就我知道的PP助手还能选择下载历史版本,当然也有部分应用是没在商店上架的,他们是通过企业证书公布自己的应用,需要到官...
- photoshop免费软件(免费ps软件推荐)
-
photoshop是adobe公司旗下的产品,正确来说,购买正版的时候代表购买了该软件的使用权,可以享有注册软件,升级软件等服务.下载试用版可在试用期内使用无需收费.官方试用版在30天内是免费的...
-
- 中国苹果官网查询序列号(苹果官网查询序列号收费吗)
-
苹果查序列号入口可登陆苹果官网checkcoverage.apple.com进行查询,具体步骤如下:1、打开手机设置,点击“通用”2、进入页面后点击“关于本机”;3、页面跳转后,我们就可以看到本机的序列号了,长按序列号,然后点击“拷贝”4、...
-
2026-01-15 14:05 liuian
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
