python数据分析:使用pandas库读取和编辑Excel表
liuian 2025-03-10 18:11 35 浏览
使用 Pandas,我们可以轻松地读取和写入Excel 文件,之前文章我们介绍了其他多种方法。
使用前确保已经安装pandas和 openpyxl库(默认使用该库处理Excel文件)。没有安装的可以使用pip命令安装:
pip install pandas openpyxl -i https://mirrors.aliyun.com/pypi/simple/
读取excel文件
使用pandas的read_excel函数,读取excel文件,默认返回DataFrame数据格式。
函数参数有很多,主要介绍下常用的参数:
- io:字符串或文件对象,表示要读取的Excel 文件的路径或文件对象。
- sheet_name:字符串、整数或字符串列表,表示要读取的工作表名称、工作表索引(从 0 开始)或工作表名称的列表。默认值表示读取第一个工作表。
- header:用作列名的行号,默认为0(第一行)。如果没有列名,则设为None。也可以指定多行作为多级列名,例如header=[0, 1]。
- names:列名列表,当header=None时,可以使用此参数自定义列名。
- index_col:用作索引的列编号或列名。默认为None,使用CSV文件中的行索引作为DataFrame的索引。
- usecols:返回的列,可以是列名的列表或由列索引组成的列表。用于选择性地读取CSV文件中的某些列。
- dtype:字典或列表,指定某些列的数据类型。例如,dtype={'column1': int, 'column2': float}。
- Converters:一个字典,用于对特定列的数据进行转换。键是列名或列索引,值是一个函数,用于将该列的数据进行转换。
- engine:字符串,用于指定读取Excel文件的引擎。Pandas 默认使用openpyxl读取.xlsx 文件,使用xlrd读取.xls文件。引擎主要有["xlrd", "openpyxl", "odf", "pyxlsb", "calamine"]
- skiprows:需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
- nrows:需要读取的行数(从文件开头算起)。用于从大文件中提取部分数据。
- skipfooter:文件尾部需要忽略的行数。
举例:准备一个excel文件如下:
1)读取文件为DataFrame对象,并打印对象的数据
import pandas as pd
df = pd.read_excel("1.xlsx")
print(df)
结果:这个结果跟excel表格中的数据结构很类似。
2)读取文件为DataFrame对象,并使用converters参数将name列的数据大写
import pandas as pd
#converters参数是一个字典,key为name列,value为lambda函数
df = pd.read_excel("1.xlsx",converters={'name':lambda x:x.upper()})
print(df)
结果:
3)读取文件为DataFrame对象,并使用dtype参数将age列返回浮点数,通过nrows参数只读取前2行
import pandas as pd
df = pd.read_excel("1.xlsx",dtype={'age':float})
print(df)
结果:
当然这些参数可以组合实现某些特定功能,大家不妨自己尝试下,读取的数据可以继续做数据筛选,清洗、分类聚合等统计分析功能(具体可参考上一篇文章介绍python数据分析:介绍pandas库的数据类型Series和DataFrame)
保存为excel文件
使用DataFrame对象的to_excel函数将DataFrame格式数据保存为excel文件
常用参数介绍:
- excel_writer指定要写入的目标对象,可以是文件路径(字符串)或者是一个 ExcelWriter 对象。
- sheet_name:要写入的工作表名称。默认值是Sheet1。
- na_rep:用于指定缺失值(NaN)的表示方式。默认值是""(空字符串)。
- float_format:用于格式化浮点数。如果需要控制浮点数的显示格式,可以使用这个参数。例如"%.2f"会将浮点数格式化为保留两位小数的形式。
- columns: sequence,:指定要写入的列名列表。如果为 None,则写入所有列。
- index: 默认为 True。表示是否将行(索引)标签写入文件。
- header: 默认为 True。是否将列名(表头)写入文件。如果为 False,则不写入列名;也可以是一个字符串列表,指定列名的别名。
- startrow:指定从Excel表格的第几行开始写入数据。默认值是 0,表示从第一行开始
- startcol:指定从Excel表格的第几列开始写入数据。默认值是 0,表示从第一列开始。
- engine:用于指定写入 Excel 文件所使用的引擎,和read_excel函数中的engine类似。可以是openpyxl、xlsxwriter等,默认是openpyxl(如果已安装)。
- merge_cells:用于指定是否合并单元格。默认值是False。如果设置为True,并且有重复的列名或行索引等情况,可能会合并单元格。
- encoding:用于指定编码方式。默认值通常是UTF8编码。
1)举例1:读取excel表,然后再保存为excel表
import pandas as pd
df = pd.read_excel("example.xlsx",dtype={'age':float},nrows=2)
#添加一些参数 不写入索引 不写入表头 从第1行和第2列开始才写入
df.to_excel("example1.xlsx",index=False,header=False,startrow=1,startcol=2)
保存后打开如下:
2)举例2:配合使用 ExcelWriter对象将同的DataFrame写入同一个Excel文件的不同工作表
import pandas as pd
data_dict = {'group': ['A', 'C', 'B', 'A', 'A', 'C', 'B', 'B', 'C'],
'name': ['lilei', 'lili', 'wanglei', 'wangning', 'wangling', 'wangming', 'wangyu', 'liyi', 'xiaolei'],
'age': [25, 30, 35,21,23,24,25,26,32],
'city': ['shanghai', 'shenzhen', 'nanjing','shanghai', 'shenzhen', 'nanjing','shanghai', 'shenzhen', 'nanjing']}
df = pd.DataFrame(data_dict)
#将name列写入sheet1,将group列写入sheet2,保存为example1.xlsx
with pd.ExcelWriter("example1.xlsx") as writer:
df1 = df['name']
df1.to_excel(writer, sheet_name="Sheet1")
df2 =df['group']
df2.to_excel(writer, sheet_name="Sheet2")
结果:
共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”
-----指水滴不断地滴,可以滴穿石头;
-----比喻坚持不懈,集细微的力量也能成就难能的功劳。
----感谢读者的阅读和学习,谢谢大家。
相关推荐
- 开机蓝屏0x000000ed(开机蓝屏0x0000007b怎么解决)
-
停止代码0x000000ED蓝屏错误,通常称为“UNMOUNTABLE_BOOT_VOLUME”,表示计算机在尝试访问或加载操作系统时遇到问题。这通常是由硬盘驱动器或文件系统损坏引起的,也可能是由...
- ps软件在线使用(ps在线工具)
-
?选择工具是最基本的PS工具之一,具有对图层进行移动和对齐的功能,工具栏上是个亿带十字的箭头图标(区别于路径选择工具,后者是一个标准的箭头图标)。?在使用PS工具的时候,我们要注意鼠标状态的变...
- win7平板电脑(win7平板电脑好用吗)
-
方法一:平板模式只需在操作中心快速切换:1、点击右下角的操作中心图标,在弹出的窗口中点击“平板模式”实现开启或关闭;2、如此一来就能轻松实现平板模式和桌面模式的快速切换了。方法二:系统设置修改1...
- windowsxp是哪一年发布的(windowsxp是什么时候发布的)
-
WindowsXP是微软公司研发的计算机操作系统,于2001年10月25日正式发布。其名字中“XP”的意思来自英文中的“体验”(Experience)。[1][2]WindowsXP使用了Luna...
- win8没有无线网络连接(win8无线设备没有wifi)
-
当Win8.1的网络连接不可用时,您可以尝试以下几种方法来解决问题:1.检查物理连接:确保网络电缆正确连接到计算机和路由器/调制解调器。如果使用的是无线网络,请确保无线适配器已启用,并且与正确的网络...
-
- 手机系统重装教程(手机系统如何重装系统)
-
手机怎么重装系统?1首先我们是需要做好个人数据的备份的,只要做好联系人,文件夹,重要的软件和照片的备份,使用专业的备份软件就可以,我们找到设置然后找到云服务点击进去然后就会有一个云备份,再点进去有个立即备份。2第二个条件就是手机一定要有充足...
-
2026-01-09 04:55 liuian
-
- 笔记本触摸板没反应怎么办(笔记本电脑触摸板没反应怎么回事)
-
您可以尝试按下触摸板上方的Fn键加上触摸板功能键来恢复触摸板反应。如果这个方法不行的话,您可以尝试更换电脑驱动或进行一些基础维护来解决问题。触摸板没有反应可能是因为触摸板驱动或者硬件出现问题,还有可能是触摸板出现灰尘卡住,需要进行清理维护。...
-
2026-01-09 04:05 liuian
- gpt和mbr的区别哪个好(gpt和mbr性能有差距吗)
-
GPT格式相较于MBR格式有更多的优点。首先,GPT扩展了分区表的大小,支持更多的分区。其次,GPT支持更大的硬盘容量,能够管理超过2TB的硬盘。另外,GPT对于数据备份和恢复也更加方便,而且更加稳定...
- cmd清理垃圾命令代码(cmd清除垃圾命令)
-
1、首先“windows”键+“R”,当然不一定是大写,这里是为了突出2、其次,输入“cmd”,按下回车键或者点击上面的“确定”按钮3、进入控制台窗口之后,输入“cleanmgr”,按下回车键“ent...
- 双系统没有引导界面(双系统 没有引导)
-
安装有winPE系统的U盘无法进安装系统界面的原因通常有如下几点:1)BIOS中开启了secureboot若BIOS中开启了secureboot项目,winPE系统是无法引导进入的,此时需先进入BIO...
- 电脑运行速度慢怎么办(电脑运行速度慢咋办)
-
清理电脑桌面电脑桌面上的东西越少越好,东西多了占系统资源。虽然在桌面上方便些,但是要付出占用系统资源和牺牲速度的代价。解决办法:①将桌面上快捷方式都删了,因为这些在“开始”菜单和“程序”栏里都有。②将...
- foxmail和qq邮箱的关系(foxmail邮箱和outlook)
-
是的,QQ邮箱和Foxmail邮箱是一个团队开发的就是原来的Foxmail客户端开发团队不过被腾讯收购了所以,我们看的的QQ邮箱和Foxmail邮箱是一样的。只是Foxmail功能少的点,而切也不够出...
- 电脑如何创建虚拟光驱(如何建立虚拟光驱)
-
虚拟光驱是一种软件,可以模拟实体光盘,使得用户可以在没有实体光盘的情况下使用光盘的功能,如安装应用程序、游戏等。下面是安装虚拟光驱的一般步骤:1.选择一个虚拟光驱软件,比如VirtualClone...
- 360怎么修复u盘(用360怎么修复u盘)
-
如果是有盘符而没有显示出来的:右击我的电脑/管理/存储/磁盘管理,然后右击“可移动磁盘”图标”单击快捷菜单中的“更改驱动器和路径”选项,并在随后的界面中单击“添加”按钮,接下来选中“指派驱动器号”,同...
- cad2025永久激活密钥(cad2016激活密钥)
-
CAD2021的序列号和密钥激活步骤如下:1.首先,确保您已经购买了CAD2021的许可证。您可以在Autodesk官网上购买或联系您的Autodesk代理购买。2.下载并安装CAD2021软件。...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
