百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python数据处理利器:Pandas核心用法详解

liuian 2025-04-06 18:06 17 浏览

一、Pandas简介

Pandas是Python最强大的数据处理库,专为处理结构化数据设计。名称源自"Panel Data"(面板数据),具备以下核心优势:

  • 高效处理百万级数据
  • 支持CSV/Excel/SQL等多种数据源
  • 提供清洗、转换、分析的完整工具链

二、环境准备

# 安装命令
pip install pandas

# 基础导入方式(行业标准)
import pandas as pd
import numpy as np  # 常配合使用

三、核心数据结构

1. Series(一维数据)

创建示例:

# 从列表创建
scores = pd.Series([90, 85, 92, 88], 
                  index=['Alice', 'Bob', 'Charlie', 'David'],
                  name='Math Scores')
print(scores) 

输出结果:

复制代码Alice       90
Bob         85
Charlie     92
David       88
Name: Math Scores, dtype: int64

2. DataFrame(二维表格)

创建方式:

# 字典方式创建
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 28],
    'City': ['New York', 'London', 'Paris']
}
df = pd.DataFrame(data)

# 设置索引
df.set_index('Name', inplace=True) 

生成的DataFrame:

Name

Age

City

Alice

25

New York

Bob

30

London

Charlie

28

Paris


四、数据操作实战

案例:电商销售数据分析

1. 数据加载

# 读取CSV文件
sales = pd.read_csv('sales_data.csv', 
                   parse_dates=['order_date'])

# 显示前3行
print(sales.head(3)) 

2. 数据清洗

# 处理缺失值
sales['price'] = sales['price'].fillna(sales['price'].mean())

# 删除重复记录
sales.drop_duplicates(inplace=True)

# 类型转换
sales['quantity'] = sales['quantity'].astype(int) 

3. 数据分析

常用操作示例:

# 筛选2023年Q1数据
q1_sales = sales[sales['order_date'].between('2023-01-01', '2023-03-31')]

# 按品类统计销售额
category_sales = sales.groupby('category')['total'].sum().sort_values(ascending=False)

# 计算移动平均
sales['7d_avg'] = sales['total'].rolling(window=7).mean() 

4. 数据合并

# 合并订单与用户信息
user_info = pd.read_csv('users.csv')
merged_data = pd.merge(sales, user_info, on='user_id', how='left')

# 横向拼接季度报表
full_year = pd.concat([q1, q2, q3, q4], axis=0) 

五、进阶技巧

1. 时间序列处理

# 设置时间索引
sales.set_index('order_date', inplace=True)

# 按周重采样
weekly_sales = sales.resample('W').sum() 

2. 高效数据筛选

# 多条件查询
high_value = sales[(sales['total'] > 1000) & 
                  (sales['category'].isin(['Electronics', 'Furniture']))]

# 使用query方法
luxury_orders = sales.query("price > 500 and payment_type == 'Credit'") 

3. 内存优化

# 类型转换减少内存占用
sales['category'] = sales['category'].astype('category')
sales['user_id'] = sales['user_id'].astype('int32')

# 查看内存使用
print(sales.info(memory_usage='deep')) 

六、可视化集成

import matplotlib.pyplot as plt

# 绘制月度趋势图
monthly_sales.plot(kind='line', 
                  title='Monthly Sales Trend',
                  figsize=(12,6))
plt.xlabel('Month')
plt.ylabel('Sales Amount')
plt.show()

七、性能优化建议

  1. 尽量使用向量化操作替代循环
  2. 适当使用astype转换数据类型
  3. 大数据集使用dask并行处理
  4. 避免链式赋值,使用.loc明确索引

八、学习资源推荐

  • 官方文档:pandas.pydata.org
  • 经典书籍:《Python for Data Analysis》
  • 实战项目:Kaggle泰坦尼克生存预测
  • 可视化工具:Pandas+Seaborn组合

掌握Pandas需要持续实践,建议从实际项目入手,逐步探索更多高级功能。记住:数据质量决定分析结果,清洗步骤不可忽视!


希望这篇全面解析能帮助您快速掌握Pandas核心技能。如有疑问,欢迎在评论区交流讨论!

相关推荐

x-cmd install | jellex - 用 Python 语法在终端里玩转 JSON 数据!

还在为命令行下处理JSON数据烦恼吗?jellex来了!它是一款基于终端的交互式JSON和JSONLines数据处理工具,让你用熟悉的Python语法,轻松过滤、转换和探索JSO...

一篇长文带你在Python里玩转Json数据

Json简介Json(JavaScriptObjectNotation)很多网站都会用到Json格式来进行数据的传输和交换,就像上篇我提到的网易云音乐接口,它们返回的数据都是Json格式的。这因为...

Python JSON 魔法手册:数据转换的终极艺术

对话实录小白:(崩溃)我从API拿到了JSON数据,怎么变成Python对象?专家:(掏出魔法书)用json模块,轻松实现数据转换!JSON基础三连击1.字符串Python对...

Python JSON 详解教程(python json())

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式(lightweightdatainterchangeformat)常用于Web应用、配置文件(co...

Python 数据的 JSON 格式序列化及反序列化

在Python中,将数据转换为JSON格式非常简单,可以使用内置的json模块。json模块提供了json.dumps()和json.dump()方法,用于将Python对象...

如何使Python类可JSON序列化(python json 类)

技术背景在Python开发中,JSON(JavaScriptObjectNotation)是一种常用的数据交换格式。然而,Python的json模块默认只能序列化一些基本数据类型,如字典、列表、字...

详细介绍一下Python如何对JSON格式数据进行处理?

在Python中对于JSON数据的处理是在日常开发中的常见需求之一。通常情况下,对JSON数据的处理主要涉及到如下的的几个步骤对于JSON数据的解析操作对于JSON数据的处理操作对于JSON数据的格式...

Python 字典l转换成 JSON(python转化字典)

本文需要5分钟。如果对您有用可以点赞评论关注.Python字典到JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,它基于ECMAScrip...

打造熟悉的VS界面风格(vs界面设计美化)

用惯了老机子的VS界面,换新机子时,各种不适应。现在重新打造老款样式:1)下载VisualStudio2013ColorThemeEditorhttps://marketplace.vis...

办公小技巧:全部亮相 让Excel单元格完全显示文本

平时我们在使用Excel制作表格的时候,经常会遇到由于文本内容较多,导致这些内容无法在一个单元格中完全显示。常规的方法是将单元格设置为“自动换行”,但是这样会影响整个文件的美观。下例是某小区的入住登记...

WinForms 中的 CheckBox 控件使用指南

在WinForms中,CheckBox控件是一个允许用户选择或取消选择的单选按钮。它通常用于表示布尔值(真/假)或允许多选的情况。以下是如何使用CheckBox控件的一些基本信息和示例代码。创建...

图片转文字--四种OCR工具的安装和使用

本文仅测试简单的安装和使用,下一步应该是测试不同数据集下的检测准确率和检测效率,敬请期待。作者的系统环境是:笔记本:ThindPadP520OS:win11显卡:QuadroP520一、EasyO...

C# 给Word每一页设置不同图片水印

Word中设置水印时,可加载图片设置为水印效果,但通常添加水印效果时,会对所有页面都设置成统一效果,如果需要对每一页或者某个页面设置不同的水印效果,则可以参考本文中的方法。下面,将以C#代码为例,对W...

集成的面向对象控件Xtreme Controls正式发布v17.0.0

CodejockXtremeControls为Windows图形用户软件工程师提供众多的有关MFC的控件产品,该产品是通过完全测试并专门为图形用户设计的一款专业控件。它是一款集成了面向对象的控件被...

Win10 Build 10061老问题修复新问题来

|责编:刘菲菲【中关村在线软件资讯】4月23日消息:微软今天正式推送了Windows10Build10061预览版这个版本除了正常的功能更新和调整外,还修复了多个bug。其中一部分对于开发者开...