Pandas数据分析库 整理Excel表格再也不用担心啦
亲爱的小伙伴们,今天让我来给大家介绍一个超级实用的Python库 —— Pandas!作为一个经常要和Excel打交道的女生,我深知整理数据的烦恼。不过有了Pandas,处理Excel表格就变得像拿着魔法棒一样简单呢!今天我们就一起来学习如何用Pandas来处理Excel数据吧~
准备工作
首先要安装Pandas库,只需要在命令行中输入:
pip install pandas
别忘了也要安装处理Excel文件的依赖库哦:
pip install openpyxl
读取Excel文件
让我们先来看看如何把Excel文件读入Python:
import pandas as pd
# 读取Excel文件
df = pd.read_excel('sales.xlsx')
# 查看前5行数据
print(df.head())
小贴士:df是DataFrame的缩写,可以把它理解为一个超级表格,就像Excel一样有行和列呢!
数据清洗小技巧
经常会遇到数据不整齐的情况,下面是一些实用的清理方法:
# 删除重复行
df.drop_duplicates(inplace=True)
# 填充空值
df.fillna('未知', inplace=True)
# 重命名列
df.rename(columns={'销售额': 'sales', '日期': 'date'}, inplace=True)
?注意事项:inplace=True表示直接修改原数据,如果不加这个参数,需要用新变量接收修改后的结果哦~
数据分析小能手
来看看一些常用的数据分析方法:
# 按月份统计销售总额
monthly_sales = df.groupby('month')['sales'].sum()
# 找出销售额最高的前3名
top3 = df.nlargest(3, 'sales')
# 计算每个产品的平均价格
avg_price = df.groupby('product')['price'].mean()
保存处理后的结果
处理完数据当然要保存啦:
# 保存为Excel
df.to_excel('new_sales.xlsx', index=False)
# 保存为CSV
df.to_csv('new_sales.csv', index=False, encoding='utf-8-sig')
小技巧:保存中文时,建议使用utf-8-sig编码,这样Excel打开就不会乱码了~
实战小练习
让我们来做一个小练习吧:
- 读取一个销售数据表格
- 删除重复数据
- 按照销售员统计总销售额
- 将结果保存到新Excel文件
import pandas as pd
# 读取数据
df = pd.read_excel('sales_data.xlsx')
# 删除重复行
df.drop_duplicates(inplace=True)
# 按销售员统计
summary = df.groupby('salesperson')['amount'].sum().reset_index()
# 保存结果
summary.to_excel('sales_summary.xlsx', index=False)
小伙伴们,今天的Python学习之旅就到这里啦!记得动手敲代码,有问题随时在评论区问我哦。读Excel、写Excel都不是问题,以后再也不用发愁啦!祝大家学习愉快,Python学习节节高!
温馨提示:
- 处理大文件时要注意内存使用
- 保存文件前最好先备份原始数据
- 多使用head()查看数据,避免操作错误