百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

10 分钟掌握 Pandas 核心操作:从零开始的数据分析实战

liuian 2025-01-12 16:25 54 浏览

大家好,我是章北海

在数据分析领域,Pandas 是一个不可或缺的 Python 库。

本文将通过一个真实的销售数据分析案例,系统地介绍 Pandas 的核心操作。无论你是数据分析新手还是希望系统复习的老手,这篇文章都值得收藏。

一、项目背景

假设你是一家连锁店的数据分析师,需要处理和分析全国各地区的销售数据。数据分散在不同的文件中,包括:

  • 销售记录(CSV 格式)
  • 客户信息(JSON 格式)

我们的目标是将这些数据整合起来,进行清洗和分析,最终得出有价值的商业洞察。

二、数据准备

首先,让我们创建示例数据:

# 创建示例 CSV 数据
sales_data = """
date,product,price,quantity,region
2024-01-01,A,100,5,North
2024-01-02,B,200,,South
2024-01-03,A,100,3,East
2024-01-04,C,300,4,West
2024-01-05,B,200,2,North
"""
# 创建示例 JSON 数据
customer_data = """
{
    "customers": [
        {"id": 1, "name": "张三", "region": "North"},
        {"id": 2, "name": "李四", "region": "South"}
    ]
}
"""
# 将数据保存到文件
with open('sales.csv', 'w') as f:
    f.write(sales_data)
    
with open('customers.json', 'w') as f:
    f.write(customer_data)

三、数据导入

Pandas 提供了丰富的数据导入功能,可以处理多种格式的数据文件:

import pandas as pd
# 导入 CSV 格式销售数据
df_sales = pd.read_csv('sales.csv')
# 导入 JSON 格式客户数据
df_customers = pd.read_json('customers.json')
# 创建日期索引
date_range = pd.date_range(start='2024-01-01', end='2024-01-05', freq='D')
# 合并数据集
df_combined = pd.concat([df_sales, df_customers], axis=1)

四、数据清洗

数据清洗是数据分析中最重要的步骤,包括处理缺失值、数据转换等操作:

# 1. 处理缺失值
df_sales = df_sales.fillna(0)  # 将缺失值填充为 0
# 2. 删除无效数据
df_sales = df_sales.dropna(how='all')  # 删除全为空的行
# 3. 数据排序
df_sales = df_sales.sort_values('price')  # 按价格排序
# 4. 数据转换
df_sales['total'] = df_sales.apply(lambda x: x['price'] * x['quantity'], axis=1)
# 5. 分组统计
region_stats = df_sales.groupby('region').agg({
    'total': 'sum',
    'quantity': 'count'
})
# 6. 数据合并
df_merged = df_sales.join(df_customers.set_index('region'), on='region')
# 7. 重命名列
df_sales = df_sales.rename(columns={'quantity': 'sales_volume'})
# 8. 设置索引
df_sales = df_sales.set_index('date')

五、数据统计分析

清洗完数据后,我们可以进行统计分析:

# 1. 查看数据概览
print("数据前 5 行:")
print(df_sales.head())
print("\n数据基本信息:")
print(df_sales.info())
# 2. 基础统计
print("\n基础统计值:")
print(df_sales.describe())
# 3. 详细统计
print("\n具体统计指标:")
print("平均价格:", df_sales['price'].mean())
print("价格中位数:", df_sales['price'].median())
print("销量总计:", df_sales['sales_volume'].count())
print("价格标准差:", df_sales['price'].std())
print("最高价格:", df_sales['price'].max())
print("最低价格:", df_sales['price'].min())

六、分析结果示例

数据前5行:
            product  price  sales_volume region  total
2024-01-01       A    100            5  North    500
2024-01-02       B    200            0  South      0
2024-01-03       A    100            3   East    300
2024-01-04       C    300            4   West   1200
2024-01-05       B    200            2  North    400
平均价格: 180.0
价格中位数: 200.0
销量总计: 5
价格标准差: 84.85
最高价格: 300
最低价格: 100

七、实战技巧总结

  1. 数据导入技巧
  2. 使用适当的 read_*() 函数导入不同格式的数据
  3. 合理使用 concat() 合并多个数据源
  4. 数据清洗要点
  5. 始终检查并处理缺失值
  6. 使用 groupby() 进行分组分析
  7. 灵活运用 apply() 进行数据转换
  8. 统计分析方法
  9. 先用 describe() 获取整体概览
  10. 根据业务需求选择合适的统计指标
  11. 注意异常值的处理

八、结语

本文通过一个完整的案例,展示了 Pandas 中最常用的数据处理操作。这些操作覆盖了数据分析工作中 90% 的日常需求。建议大家在实践中多加练习,熟能生巧。

记住,数据分析不仅仅是掌握这些技术操作,更重要的是培养数据思维,学会从数据中发现问题和洞察。

模型篇P1:机器学习基本概念

迄今最好的AI代码编辑器,编程只需狂按Tab

【大模型实战,完整代码】AI 数据分析、可视化项目

108页PDF小册子:搭建机器学习开发环境及Python基础

116页PDF小册子:机器学习中的概率论、统计学、线性代数

全网最全 Python、机器学习、AI、LLM 速查表(100 余张)

Obsidian AI写作神器:一键配置DeepSeek,写作效率飙升1000%!

基于 QAnything 的知识库问答系统:技术解析与应用实践【附代码】

相关推荐

驱动网卡(怎么从新驱动网卡)
驱动网卡(怎么从新驱动网卡)

网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...

2026-01-30 00:37 liuian

win10更新助手装系统(微软win10更新助手)

1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...

windows11专业版密钥最新(windows11专业版激活码永久)

 Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...

手机删过的软件恢复(手机删除过的软件怎么恢复)
手机删过的软件恢复(手机删除过的软件怎么恢复)

操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...

2026-01-29 23:55 liuian

一键ghost手动备份系统步骤(一键ghost 备份)

  步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。  步骤...

怎么创建局域网(怎么创建局域网打游戏)

  1、购买路由器一台。进入路由器把dhcp功能打开  2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。  3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...

精灵驱动器官方下载(精灵驱动手机版下载)

是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...

一键还原系统步骤(一键还原系统有哪些)

1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。  2、在弹出的“准备安装”窗口中,可...

电脑加速器哪个好(电脑加速器哪款好)

我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...

任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)

是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...

u盘怎么恢复文件(u盘文件恢复的方法)

开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...

系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)

1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...

剪贴板权限设置方法(剪贴板访问权限)
剪贴板权限设置方法(剪贴板访问权限)

1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...

2026-01-29 21:37 liuian

平板系统重装大师(平板重装win系统)

如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...

联想官网售后服务网点(联想官网售后服务热线)

联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...