百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Pandas 入门教程 - 第五课: 高级数据操作

liuian 2025-01-12 16:24 16 浏览


在前几节课中,我们学习了如何使用 Pandas 进行数据操作和可视化。在这一课中,我们将进一步探索一些高级的数据操作技巧,包括数据透视、分组聚合、时间序列处理以及高级索引和切片。

高级索引和切片

高级索引

Pandas 提供了强大的索引功能,可以让我们轻松地访问和操作数据。

布尔索引

import pandas as pd

# 创建一个简单的 DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
})

# 使用布尔索引选择年龄大于 30 的人
filtered_df = df[df['Age'] > 30]
print(filtered_df)
      Name  Age     City
2  Charlie   35  Chicago
3    David   40  Houston

切片和切片

# 使用切片选择特定范围的行和列
subset_df = df[1:3, 0:2]  # 选择第 2 行到第 3 行,第 1 列到第 2 列
print(subset_df)

位置索引

# 使用位置索引选择特定行和列
row_at_index_2 = df.iloc[1]  # 选择第 2 行
print(row_at_index_2)

column_at_index_1 = df.iloc[:, 0]  # 选择第 1 列
print(column_at_index_1)
Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object
0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object

标签索引

# 使用标签索引选择特定行和列
row_at_label_Bob = df.loc[df['Name'] == 'Bob']  # 选择 'Name' 为 'Bob' 的行
print(row_at_label_Bob)

column_at_label_Age = df.loc[:, 'Age']  # 选择 'Age' 列
print(column_at_label_Age)
  Name  Age         City
1  Bob   30  Los Angeles
0    25
1    30
2    35
3    40
Name: Age, dtype: int64

高级切片

Pandas 还支持更复杂的切片操作,如基于条件的切片。

基于条件的切片

# 使用条件表达式进行切片
filtered_df = df[(df['Age'] > 25) & (df['City'] == 'Chicago')]
print(filtered_df)
      Name  Age     City
2  Charlie   35  Chicago

分组聚合

分组聚合

Pandas 的 groupby() 方法允许我们对数据集进行分组,并对每个组进行聚合操作。

聚合函数

import pandas as pd

# 创建一个简单的 DataFrame
df = pd.DataFrame({
    'Category': ['A', 'A', 'B', 'B', 'C'],
    'Value': [10, 20, 30, 40, 50]
})

# 使用 groupby() 方法按 'Category' 列分组,并计算每个组的平均值
grouped_df = df.groupby('Category').mean()
print(grouped_df)
          Value
Category       
A          15.0
B          35.0
C          50.0

自定义聚合函数

# 定义一个自定义聚合函数
def custom_aggregate(values):
    return sum(values) / len(values)

# 使用 groupby() 方法按 'Category' 列分组,并使用自定义聚合函数
grouped_df_custom = df.groupby('Category').agg(custom_aggregate)
print(grouped_df_custom)
          Value
Category       
A          15.0
B          35.0
C          50.0

时间序列处理

时间序列数据处理

Pandas 提供了强大的时间序列处理功能,可以处理日期和时间数据。

创建时间序列

import pandas as pd

# 创建一个日期范围
dates = pd.date_range('2020-01-01', periods=100)

# 创建一个时间序列 DataFrame
ts_df = pd.DataFrame({
    'Date': dates,
    'Value': np.random.randn(100)
})

print(ts_df)
         Date     Value
0  2020-01-01  2.032894
1  2020-01-02 -1.208483
2  2020-01-03 -0.532763
3  2020-01-04  2.169684
4  2020-01-05  0.580246
..        ...       ...
95 2020-04-05  0.254223
96 2020-04-06  0.461171
97 2020-04-07  0.282761
98 2020-04-08  0.091264
99 2020-04-09  0.464295

[100 rows x 2 columns]

时间序列操作

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个日期范围
dates = pd.date_range('2020-01-01', periods=100)

# 创建一个时间序列 DataFrame,并将日期设置为索引
ts_df = pd.DataFrame({
    'Value': np.random.randn(100)
}, index=dates)

# 确保 'Value' 列是数值类型
ts_df['Value'] = ts_df['Value'].astype(float)

# 时间序列频率转换
ts_df_quarterly = ts_df.resample('Q').mean()  # 转换为季度数据
ts_df_monthly = ts_df.resample('M').sum()  # 转换为月度数据

# 移动平均
ma_20 = ts_df['Value'].rolling(window=20).mean()

# 绘制时间序列图
plt.figure(figsize=(12, 6))
plt.subplot(2, 1, 1)
plt.plot(ts_df.index, ts_df['Value'], label='Original Data')
plt.legend()

plt.subplot(2, 1, 2)
plt.plot(ma_20.index, ma_20, label='Moving Average (20 days)', color='red')
plt.legend()
plt.show()



练习题

  1. 使用 Pandas 创建一个包含日期和温度的 DataFrame,并将其转换为时间序列对象。
  2. 如何使用 Pandas 进行日期和时间的格式化和解析

相关推荐

2023年最新微信小程序抓包教程(微信小程序 抓包)

声明:本公众号大部分文章来自作者日常学习笔记,部分文章经作者授权及其他公众号白名单转载。未经授权严禁转载。如需转载,请联系开百。请不要利用文章中的相关技术从事非法测试。由此产生的任何不良后果与文...

测试人员必看的软件测试面试文档(软件测试面试怎么说)

前言又到了毕业季,我们将会迎来许多需要面试的小伙伴,在这里呢笔者给从事软件测试的小伙伴准备了一份顶级的面试文档。1、什么是bug?bug由哪些字段(要素)组成?1)将在电脑系统或程序中,隐藏着的...

复活,视频号一键下载,有手就会,长期更新(2023-12-21)

视频号下载的话题,也算是流量密码了。但也是比较麻烦的问题,频频失效不说,使用方法也难以入手。今天,奶酪就来讲讲视频号下载的新方案,更关键的是,它们有手就会有用,最后一个方法万能。实测2023-12-...

新款HTTP代理抓包工具Proxyman(界面美观、功能强大)

不论是普通的前后端开发人员,还是做爬虫、逆向的爬虫工程师和安全逆向工程,必不可少会使用的一种工具就是HTTP抓包工具。说到抓包工具,脱口而出的肯定是浏览器F12开发者调试界面、Charles(青花瓷)...

使用Charles工具对手机进行HTTPS抓包

本次用到的工具:Charles、雷电模拟器。比较常用的抓包工具有fiddler和Charles,今天讲Charles如何对手机端的HTTS包进行抓包。fiddler抓包工具不做讲解,网上有很多fidd...

苹果手机下载 TikTok 旧版本安装包教程

目前苹果手机能在国内免拔卡使用的TikTok版本只有21.1.0版本,而AppStore是高于21.1.0版本,本次教程就是解决如何下载TikTok旧版本安装包。前期准备准备美区...

【0基础学爬虫】爬虫基础之抓包工具的使用

大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬...

防止应用调试分析IP被扫描加固实战教程

防止应用调试分析IP被扫描加固实战教程一、概述在当今数字化时代,应用程序的安全性已成为开发者关注的焦点。特别是在应用调试过程中,保护应用的网络安全显得尤为重要。为了防止应用调试过程中IP被扫描和潜在的...

一文了解 Telerik Test Studio 测试神器

1.简介TelerikTestStudio(以下称TestStudio)是一个易于使用的自动化测试工具,可用于Web、WPF应用的界面功能测试,也可以用于API测试,以及负载和性能测试。Te...

HLS实战之Wireshark抓包分析(wireshark抓包总结)

0.引言Wireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接...

信息安全之HTTPS协议详解(加密方式、证书原理、中间人攻击 )

HTTPS协议详解(加密方式、证书原理、中间人攻击)HTTPS协议的加密方式有哪些?HTTPS证书的原理是什么?如何防止中间人攻击?一:HTTPS基本介绍:1.HTTPS是什么:HTTPS也是一个...

Fiddler 怎么抓取手机APP:抖音、小程序、小红书数据接口

使用Fiddler抓取移动应用程序(APP)的数据接口需要进行以下步骤:首先,确保手机与计算机连接在同一网络下。在计算机上安装Fiddler工具,并打开它。将手机的代理设置为Fiddler代理。具体方...

python爬虫教程:教你通过 Fiddler 进行手机抓包

今天要说说怎么在我们的手机抓包有时候我们想对请求的数据或者响应的数据进行篡改怎么做呢?我们经常在用的手机手机里面的数据怎么对它抓包呢?那么...接下来就是学习python的正确姿势我们要用到一款强...

Fiddler入门教程全家桶,建议收藏

学习Fiddler工具之前,我们先了解一下Fiddler工具的特点,Fiddler能做什么?如何使用Fidder捕获数据包、修改请求、模拟客户端向服务端发送请求、实施越权的安全性测试等相关知识。本章节...

fiddler如何抓取https请求实现手机抓包(100%成功解决)

一、HTTP协议和HTTPS协议。(1)HTTPS协议=HTTP协议+SSL协议,默认端口:443(2)HTTP协议(HyperTextTransferProtocol):超文本传输协议。默认...