百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Pandas 入门教程 - 第五课: 高级数据操作

liuian 2025-01-12 16:24 28 浏览


在前几节课中,我们学习了如何使用 Pandas 进行数据操作和可视化。在这一课中,我们将进一步探索一些高级的数据操作技巧,包括数据透视、分组聚合、时间序列处理以及高级索引和切片。

高级索引和切片

高级索引

Pandas 提供了强大的索引功能,可以让我们轻松地访问和操作数据。

布尔索引

import pandas as pd

# 创建一个简单的 DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
})

# 使用布尔索引选择年龄大于 30 的人
filtered_df = df[df['Age'] > 30]
print(filtered_df)
      Name  Age     City
2  Charlie   35  Chicago
3    David   40  Houston

切片和切片

# 使用切片选择特定范围的行和列
subset_df = df[1:3, 0:2]  # 选择第 2 行到第 3 行,第 1 列到第 2 列
print(subset_df)

位置索引

# 使用位置索引选择特定行和列
row_at_index_2 = df.iloc[1]  # 选择第 2 行
print(row_at_index_2)

column_at_index_1 = df.iloc[:, 0]  # 选择第 1 列
print(column_at_index_1)
Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object
0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object

标签索引

# 使用标签索引选择特定行和列
row_at_label_Bob = df.loc[df['Name'] == 'Bob']  # 选择 'Name' 为 'Bob' 的行
print(row_at_label_Bob)

column_at_label_Age = df.loc[:, 'Age']  # 选择 'Age' 列
print(column_at_label_Age)
  Name  Age         City
1  Bob   30  Los Angeles
0    25
1    30
2    35
3    40
Name: Age, dtype: int64

高级切片

Pandas 还支持更复杂的切片操作,如基于条件的切片。

基于条件的切片

# 使用条件表达式进行切片
filtered_df = df[(df['Age'] > 25) & (df['City'] == 'Chicago')]
print(filtered_df)
      Name  Age     City
2  Charlie   35  Chicago

分组聚合

分组聚合

Pandas 的 groupby() 方法允许我们对数据集进行分组,并对每个组进行聚合操作。

聚合函数

import pandas as pd

# 创建一个简单的 DataFrame
df = pd.DataFrame({
    'Category': ['A', 'A', 'B', 'B', 'C'],
    'Value': [10, 20, 30, 40, 50]
})

# 使用 groupby() 方法按 'Category' 列分组,并计算每个组的平均值
grouped_df = df.groupby('Category').mean()
print(grouped_df)
          Value
Category       
A          15.0
B          35.0
C          50.0

自定义聚合函数

# 定义一个自定义聚合函数
def custom_aggregate(values):
    return sum(values) / len(values)

# 使用 groupby() 方法按 'Category' 列分组,并使用自定义聚合函数
grouped_df_custom = df.groupby('Category').agg(custom_aggregate)
print(grouped_df_custom)
          Value
Category       
A          15.0
B          35.0
C          50.0

时间序列处理

时间序列数据处理

Pandas 提供了强大的时间序列处理功能,可以处理日期和时间数据。

创建时间序列

import pandas as pd

# 创建一个日期范围
dates = pd.date_range('2020-01-01', periods=100)

# 创建一个时间序列 DataFrame
ts_df = pd.DataFrame({
    'Date': dates,
    'Value': np.random.randn(100)
})

print(ts_df)
         Date     Value
0  2020-01-01  2.032894
1  2020-01-02 -1.208483
2  2020-01-03 -0.532763
3  2020-01-04  2.169684
4  2020-01-05  0.580246
..        ...       ...
95 2020-04-05  0.254223
96 2020-04-06  0.461171
97 2020-04-07  0.282761
98 2020-04-08  0.091264
99 2020-04-09  0.464295

[100 rows x 2 columns]

时间序列操作

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个日期范围
dates = pd.date_range('2020-01-01', periods=100)

# 创建一个时间序列 DataFrame,并将日期设置为索引
ts_df = pd.DataFrame({
    'Value': np.random.randn(100)
}, index=dates)

# 确保 'Value' 列是数值类型
ts_df['Value'] = ts_df['Value'].astype(float)

# 时间序列频率转换
ts_df_quarterly = ts_df.resample('Q').mean()  # 转换为季度数据
ts_df_monthly = ts_df.resample('M').sum()  # 转换为月度数据

# 移动平均
ma_20 = ts_df['Value'].rolling(window=20).mean()

# 绘制时间序列图
plt.figure(figsize=(12, 6))
plt.subplot(2, 1, 1)
plt.plot(ts_df.index, ts_df['Value'], label='Original Data')
plt.legend()

plt.subplot(2, 1, 2)
plt.plot(ma_20.index, ma_20, label='Moving Average (20 days)', color='red')
plt.legend()
plt.show()



练习题

  1. 使用 Pandas 创建一个包含日期和温度的 DataFrame,并将其转换为时间序列对象。
  2. 如何使用 Pandas 进行日期和时间的格式化和解析

相关推荐

Python生态下的微服务框架FastAPI

FastAPI是什么FastAPI是一个用于构建API的web框架,使用Python并基于标准的Python类型提示。与flask相比有什么优势高性能:得益于uvloop,可达到与...

SpringBoot:如何解决跨域问题,详细方案和示例代码

跨域问题在前端开发中经常会遇到,特别是在使用SpringBoot框架进行后端开发时。解决跨域问题的方法有很多,我将为你提供一种详细的方案,包含示例代码。首先,让我们了解一下什么是跨域问题。跨域是指在...

使用Nginx轻松搞定跨域问题_使用nginx轻松搞定跨域问题的方法

跨域问题(Cross-OriginResourceSharing,简称CORS)是由浏览器的同源策略引起的。同源策略指的是浏览器限制来自不同源(协议、域名、端口)的JavaScript对资源的...

spring boot过滤器与拦截器的区别

有小伙伴使用springboot开发多年,但是对于过滤器和拦截器的主要区别依然傻傻分不清。今天就对这两个概念做一个全面的盘点。定义与作用范围过滤器(Filter):过滤器是一种可以动态地拦截、处理和...

nginx如何配置跨域_nginx配置跨域访问

要在Nginx中配置跨域,可以使用add_header指令来添加Access-Control-Allow-*头信息,如下所示:location/api{if($reques...

解决跨域问题的8种方法,含网关、Nginx和SpringBoot~

跨域问题是浏览器为了保护用户的信息安全,实施了同源策略(Same-OriginPolicy),即只允许页面请求同源(相同协议、域名和端口)的资源,当JavaScript发起的请求跨越了同源策略,...

图解CORS_图解数学

CORS的全称是Cross-originresourcesharing,中文名称是跨域资源共享,是一种让受限资源能够被其他域名的页面访问的一种机制。下图描述了CORS机制。一、源(Orig...

CORS 幕后实际工作原理_cors的工作原理

跨域资源共享(CORS)是Web浏览器实施的一项重要安全机制,用于保护用户免受潜在恶意脚本的攻击。然而,这也是开发人员(尤其是Web开发新手)感到沮丧的常见原因。小编在此将向大家解释它存在...

群晖无法拉取Docker镜像?最稳定的方法:搭建自己的加速服务!

因为未知的原因,国内的各大DockerHub镜像服务器无法使用,导致在使用群晖时无法拉取镜像构建容器。网上大部分的镜像加速服务都是通过Cloudflare(CF)搭建的,为什么都选它呢?因为...

Sa-Token v1.42.0 发布,新增 API Key、TOTP 验证码等能力

Sa-Token是一款免费、开源的轻量级Java权限认证框架,主要解决:登录认证、权限认证、单点登录、OAuth2.0、微服务网关鉴权等一系列权限相关问题。目前最新版本v1.42.0已...

NGINX常规CORS错误解决方案_nginx配置cors

CORS错误CORS(Cross-OriginResourceSharing,跨源资源共享)是一种机制,它使用额外的HTTP头部来告诉浏览器允许一个网页运行的脚本从不同于它自身来源的服务器上请求资...

Spring Boot跨域问题终极解决方案:3种方案彻底告别CORS错误

引言"接口调不通?前端同事又双叒叕在吼跨域了!""明明Postman能通,浏览器却报OPTIONS403?""生产环境跨域配置突然失效,凌晨3点被夺命连环Ca...

SpringBoot 项目处理跨域的四种技巧

上周帮一家公司优化代码时,顺手把跨域的问题解决了,这篇文章,我们聊聊SpringBoot项目处理跨域的四种技巧。1什么是跨域我们先看下一个典型的网站的地址:同源是指:协议、域名、端口号完全相...

Spring Cloud入门看这一篇就够了_spring cloud使用教程

SpringCloud微服务架构演进单体架构垂直拆分分布式SOA面向服务架构微服务架构服务调用方式:RPC,早期的webservice,现在热门的dubbo,都是RPC的典型代表HTTP,HttpCl...

前端程序员:如何用javascript开发一款在线IDE?

前言3年前在AWSre:Invent大会上AWS宣布推出Cloud9,用于在云端编写、运行和调试代码,它可以直接运行在浏览器中,也就是传说中的WebIDE。3年后的今天随着国内云计算的发...