百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

10 分钟掌握 Pandas 核心操作:从零开始的数据分析实战

liuian 2025-01-12 16:25 38 浏览

大家好,我是章北海

在数据分析领域,Pandas 是一个不可或缺的 Python 库。

本文将通过一个真实的销售数据分析案例,系统地介绍 Pandas 的核心操作。无论你是数据分析新手还是希望系统复习的老手,这篇文章都值得收藏。

一、项目背景

假设你是一家连锁店的数据分析师,需要处理和分析全国各地区的销售数据。数据分散在不同的文件中,包括:

  • 销售记录(CSV 格式)
  • 客户信息(JSON 格式)

我们的目标是将这些数据整合起来,进行清洗和分析,最终得出有价值的商业洞察。

二、数据准备

首先,让我们创建示例数据:

# 创建示例 CSV 数据
sales_data = """
date,product,price,quantity,region
2024-01-01,A,100,5,North
2024-01-02,B,200,,South
2024-01-03,A,100,3,East
2024-01-04,C,300,4,West
2024-01-05,B,200,2,North
"""
# 创建示例 JSON 数据
customer_data = """
{
    "customers": [
        {"id": 1, "name": "张三", "region": "North"},
        {"id": 2, "name": "李四", "region": "South"}
    ]
}
"""
# 将数据保存到文件
with open('sales.csv', 'w') as f:
    f.write(sales_data)
    
with open('customers.json', 'w') as f:
    f.write(customer_data)

三、数据导入

Pandas 提供了丰富的数据导入功能,可以处理多种格式的数据文件:

import pandas as pd
# 导入 CSV 格式销售数据
df_sales = pd.read_csv('sales.csv')
# 导入 JSON 格式客户数据
df_customers = pd.read_json('customers.json')
# 创建日期索引
date_range = pd.date_range(start='2024-01-01', end='2024-01-05', freq='D')
# 合并数据集
df_combined = pd.concat([df_sales, df_customers], axis=1)

四、数据清洗

数据清洗是数据分析中最重要的步骤,包括处理缺失值、数据转换等操作:

# 1. 处理缺失值
df_sales = df_sales.fillna(0)  # 将缺失值填充为 0
# 2. 删除无效数据
df_sales = df_sales.dropna(how='all')  # 删除全为空的行
# 3. 数据排序
df_sales = df_sales.sort_values('price')  # 按价格排序
# 4. 数据转换
df_sales['total'] = df_sales.apply(lambda x: x['price'] * x['quantity'], axis=1)
# 5. 分组统计
region_stats = df_sales.groupby('region').agg({
    'total': 'sum',
    'quantity': 'count'
})
# 6. 数据合并
df_merged = df_sales.join(df_customers.set_index('region'), on='region')
# 7. 重命名列
df_sales = df_sales.rename(columns={'quantity': 'sales_volume'})
# 8. 设置索引
df_sales = df_sales.set_index('date')

五、数据统计分析

清洗完数据后,我们可以进行统计分析:

# 1. 查看数据概览
print("数据前 5 行:")
print(df_sales.head())
print("\n数据基本信息:")
print(df_sales.info())
# 2. 基础统计
print("\n基础统计值:")
print(df_sales.describe())
# 3. 详细统计
print("\n具体统计指标:")
print("平均价格:", df_sales['price'].mean())
print("价格中位数:", df_sales['price'].median())
print("销量总计:", df_sales['sales_volume'].count())
print("价格标准差:", df_sales['price'].std())
print("最高价格:", df_sales['price'].max())
print("最低价格:", df_sales['price'].min())

六、分析结果示例

数据前5行:
            product  price  sales_volume region  total
2024-01-01       A    100            5  North    500
2024-01-02       B    200            0  South      0
2024-01-03       A    100            3   East    300
2024-01-04       C    300            4   West   1200
2024-01-05       B    200            2  North    400
平均价格: 180.0
价格中位数: 200.0
销量总计: 5
价格标准差: 84.85
最高价格: 300
最低价格: 100

七、实战技巧总结

  1. 数据导入技巧
  2. 使用适当的 read_*() 函数导入不同格式的数据
  3. 合理使用 concat() 合并多个数据源
  4. 数据清洗要点
  5. 始终检查并处理缺失值
  6. 使用 groupby() 进行分组分析
  7. 灵活运用 apply() 进行数据转换
  8. 统计分析方法
  9. 先用 describe() 获取整体概览
  10. 根据业务需求选择合适的统计指标
  11. 注意异常值的处理

八、结语

本文通过一个完整的案例,展示了 Pandas 中最常用的数据处理操作。这些操作覆盖了数据分析工作中 90% 的日常需求。建议大家在实践中多加练习,熟能生巧。

记住,数据分析不仅仅是掌握这些技术操作,更重要的是培养数据思维,学会从数据中发现问题和洞察。

模型篇P1:机器学习基本概念

迄今最好的AI代码编辑器,编程只需狂按Tab

【大模型实战,完整代码】AI 数据分析、可视化项目

108页PDF小册子:搭建机器学习开发环境及Python基础

116页PDF小册子:机器学习中的概率论、统计学、线性代数

全网最全 Python、机器学习、AI、LLM 速查表(100 余张)

Obsidian AI写作神器:一键配置DeepSeek,写作效率飙升1000%!

基于 QAnything 的知识库问答系统:技术解析与应用实践【附代码】

相关推荐

压缩文件查看器(压缩文件查看器密码是多少)

1,打开手机上面的文件管理器,找到要压缩的WPS文件。2,长按一下WPS文件,然后选择要压缩的文件。3,点击右下角的【更多】,选择【压缩】。4,对压缩文件进行保存,压缩完成。扩展资料:wps产品特点1...

键盘哪个是截图键(键盘中的截图键是哪一个)

1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后,可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可。2、按Ctrl+Prtsc键截图...

flash插件电脑版下载(flash插件下载安装)

可以不安装,不安装对电脑也不会有什么影响。友情提示,最好安装,这个也不会占用你多少内存,它是用来播放网页中的flash文件的。如果你不安装,网页中的flash动画就不能正常播放。浏览器也会提示你安装!...

如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
foxmail邮箱怎么设置(foxmail邮箱设置成功后点完成没反应)

操作步骤/方法1.打开新建界面:2.打开foxmail,在上方导航栏处找到“邮箱(B)”点开此功能,会看到一个下拉菜单,在下拉菜单中找到“新建邮箱账户(N)”。3.建立账户信息:4.点击“新建邮箱账...

电脑自动关机解决办法(电脑自动关机,原来是这里出了问题)

电脑自动关机的原因一、系统文件损坏一个完整的系统受到袭击之后,电脑就不能进行初始化,从而引起自动关机,这也是一个常见的原因。可以选择重装系统的方法来解决问题。电脑自动关机的原因二、CPU太热这是电脑自...

m2固态硬盘安装系统教程(m2固态如何装系统)

加装m.2固态硬盘后,重装系统的操作步骤如下:1、下载U盘启动盘制作工具,下载一个GHOST版最新的WIN7,准备一个足够大的U盘(16G足够了),用U盘启动盘制作工具将其制作成启动U盘;2、插入新电...

运行chkdsk工具(运行chkdsk工具怎么解决)

1、win+R键打开运行,输入cmd。2、输入并回车执行chkdsk/?命令,可以了解chkdsk命令的使用方法。3、比如一些常用的命令,输入并按回车执行chkdskm:/f命令,可以检...

办公软件2007官方下载免费完整版

office字体都变成了英文是因为设置了英文模式。具体的解决步骤如下:我们需要准备的材料分别是:电脑、Word文档。1、首先我们打开Word文档,点击打开左上角的文件中的“选项”。2、然后我们在弹出来...

手机u盘有必要买吗(手机u盘需要什么软件)

网上卖的手机U盘大都是各地的实体数码店进行发货和销售的。他们采用的U盘质量和工厂生产的质量是一致的。并没有什么区别对待。而且由于网上销售费用比较低,所以他在售卖比实体数码店售卖的价格更低,所以这种手机...

电脑系统怎么下载到u盘中(电脑系统win7纯净版下载官方免费版最新版)

下载电脑系统,可以到电脑系统资源下载网站,找到下载页面的下载点,右击下载点,选择迅雷下载,可以把系统文件下载到硬盘里,然后插上U盘,将下载好的系统文件复制到U盘。另一种方法是,将迅雷软件的默认下载路径...

小米主题安装器(红米主题商店app下载安装)

很抱歉,一加九手机无法直接安装小米主题。因为一加九和小米手机使用的是不同的操作系统和主题引擎,它们之间不兼容。一加九使用的是基于Android的OxygenOS操作系统,而小米手机使用的是基于Andr...

hp电脑恢复出厂系统(hp电脑恢复出厂系统操作)

  在开始菜单的【设置】中找到【重置此电脑】的选项即可开始重置恢复到出厂设置;如果您需要整个硬盘格式化,可以选择其中的【删除所有文件】的选项,等待系统设置完成之后会重新进入新系统设置。以下是详细介绍:...

ghost做c盘镜像的步骤(ghost制作镜像步骤)

共9个步骤:1、一般GHOST工具是在PE启动后使用,这个就是PE中GHOST所在路径,找到这个软件并运行。2、界面是英文版本的,因为软件的易操作易学习性,所以这个软件基本没有中文版版本,然后在弹出的...

win10家庭版怎么激活系统(win10家庭版激活步骤)

win10家庭中文版怎么激活1.在win10系统桌面上,点击左下角的开始按钮选择设置选项进入。2.进入设置列表菜单,点击更新和安全选项进入。3.点击激活选项继续下一步操作。4.在弹出输入产品密钥的对话...