Python Pandas 数据列操作详解_pandas列计算
liuian 2025-08-31 03:56 28 浏览
本文旨在深入探讨 Python Pandas 库中列操作的各种方法和技巧,通过 25 个具体示例,帮助读者全面理解列的创建、访问、修改、排序、清洗等操作。本文基于 Pandas 和 NumPy 库,结合实际代码示例,涵盖从基础到高级的列操作内容。
准备工作
在开始列操作之前,我们需要导入必要的库并准备示例数据。以下是初始化代码:
import pandas as pd
import numpy as np
# 示例数据
data = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Last Name': ['Smith', 'Johnson', 'Williams', 'Brown', 'Jones'],
'Marathon Time Hours': [3.5, 4.0, 3.8, 4.2, 3.9],
'50 Miler Time Hours': [8.0, 9.0, 8.5, 10.0, 9.5],
'100 Miler Time Hours': [20.0, 22.0, 21.0, 23.0, 22.5],
'Last Race Date': ['2023-10-01', '2023-09-15', '2023-08-20', '2023-07-10', '2023-06-05'],
'Running Club ID': [101, 102, 103, 104, 105]
}
# 创建数据框
df = pd.DataFrame(data)运行 df.head() 可查看数据框的前几行,确保数据正确加载。
列操作示例
以下是 25 个示例,涵盖列的访问、创建、修改、排序、清洗等操作。
示例 1:访问单列
可以通过列名直接访问数据框中的某一列。
# 方法 1:使用方括号
print(df['Runner'])
# 方法 2:使用点号
print(df.Runner)示例 2:访问多列
使用双括号可以同时访问多个列。
print(df[['Runner', 'Marathon Time Hours']])示例 3:获取所有列名
有多种方法可以获取数据框的所有列名。
# 方法 1:使用 columns 属性
print(df.columns)
# 方法 2:使用 columns.values
print(df.columns.values)
# 方法 3:转为列表
print(list(df.columns))
# 方法 4:使用 keys() 方法
print(df.keys().to_list())示例 4:排序列名
可以通过 sorted() 函数对列名进行排序。
print(sorted(df.columns))示例 5:使用循环遍历列名
通过循环可以逐个访问列名。
for column_name in df.columns:
print(column_name)示例 6:处理大量列
当数据框包含大量列时(例如 100 列),可以通过设置 Pandas 显示选项查看所有列。
# 生成 100 列的随机数据
num_rows = 100
num_cols = 100
data = np.random.rand(num_rows, num_cols)
column_names = [f'Column {i+1}' for i in range(num_cols)]
df100 = pd.DataFrame(data, columns=column_names)
# 设置显示所有列
pd.set_option('display.max_columns', None)
# 或:pd.options.display.max_columns = None
print(df100)示例 7:查看列数据类型
使用 dtypes 属性可以查看每列的数据类型。
print(df.dtypes)示例 8:转换列数据类型
可以将列转换为特定数据类型,例如将日期字符串转换为 datetime 类型。
# 转换为 datetime
df['Last Race Date'] = pd.to_datetime(df['Last Race Date'])
print(df.dtypes)
# 转换为 float
df['Running Club ID'] = df['Running Club ID'].astype(float)
print(df.dtypes)
# 转换为字符串
df['Running Club ID'] = df['Running Club ID'].astype(str)
print(df.dtypes)示例 9:重命名列
使用 rename 方法可以重命名列。
df.rename(columns={'Marathon Time Hours': '262 Time Hours'}, inplace=True)
print(df.head())示例 10:基于数值创建新列
可以通过计算现有列的值来创建新列。
df['Total Time'] = df['262 Time Hours'] + df['50 Miler Time Hours'] + df['100 Miler Time Hours']
print(df.head())示例 11:基于字符串创建新列
通过拼接字符串列创建新列。
df['Full Name'] = df['Runner'] + ' ' + df['Last Name']
print(df.head())示例 12:从外部数据创建新列
可以从外部列表为数据框添加新列。
shirt_sizes = ['Small', 'Medium', 'Large', 'XL', 'Small']
df['Race Shirt Size'] = shirt_sizes
print(df.head())示例 13:删除列
使用 drop 方法删除指定列。
df.drop(columns=['Race Shirt Size'], inplace=True)
print(df.head())示例 14:重新排序列
可以通过重新定义列顺序来调整数据框的列排列。
df = df[['Full Name', 'Running Club ID', '262 Time Hours', '50 Miler Time Hours', '100 Miler Time Hours', 'Total Time']]
print(df.head())示例 15:设置索引
可以将某列设置为索引。
df.set_index('Full Name', inplace=True)
print(df.head())示例 16:设置多列索引
可以将多列组合设置为索引。
df.set_index(['Full Name', 'Running Club ID'], inplace=True)
print(df.head())示例 17:重置索引
将索引重置为默认的整数索引。
df.reset_index(inplace=True)
print(df.head())示例 18:获取数值列
使用 select_dtypes 方法获取数值类型的列。
numeric_columns = df.select_dtypes(include='number').columns
print(numeric_columns)示例 19:描述统计
使用 describe 方法获取数值列的统计信息。
print(df.describe())示例 20:为未命名列设置列名
创建数据框时未指定列名,可以在创建后设置。
df2 = pd.DataFrame([[23, 22, 21, 20, 19.55, 18.55]])
df2.columns = ['Race 1', 'Race 2', 'Race 3', 'Race 4', 'Race 5', 'Race 6']
print(df2)示例 21:处理缺失值
以下示例展示如何处理包含缺失值的数据。
# 示例数据
data3 = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Time in Minutes': [25, None, 30, 28, None],
'Distance in Kilometers': [5, 5, None, 10, 5],
'Temperature Celsius': [20, None, 22, 21, None],
'Location': ['Park', 'Track', None, 'Road', None]
}
df3 = pd.DataFrame(data3)
# 检查单列缺失值
print(df3['Time in Minutes'].isna())
# 检查所有列的缺失值
print(df3.columns[df3.isna().any()].to_list())
# 填充缺失值
df3['Time in Minutes'] = df3['Time in Minutes'].fillna(30)
print(df3)
# 删除包含缺失值的行
df3_drop = df3.dropna(subset=['Distance in Kilometers'])
print(df3_drop)
# 删除包含缺失值的列
df3_drop_col = df3.dropna(axis=1)
print(df3_drop_col)示例 22:插入新列
在指定位置插入新列,例如将温度从摄氏度转换为华氏度。
fahrenheit = df3['Temperature Celsius'] * 9/5 + 32
df3.insert(2, 'Temperature Fahrenheit', fahrenheit)
print(df3)示例 23:清理列名
清理列名中的空格或不规范字符。
# 示例数据
data4 = {
' Runner Name ': ['Alex', 'Bob', 'Charlie'],
' Average Pace ': [4.5, 5.2, 4.8],
' Total Time ': [30, 45, 40],
' Calories Burned ': [300, 400, 350]
}
df4 = pd.DataFrame(data4)
# 移除列名两端的空格
df4.columns = df4.columns.str.strip()
print(df4.columns)
# 将空格替换为下划线
df4.columns = df4.columns.str.replace(' ', '_')
print(df4.columns)
# 转换为小写
df4.columns = df4.columns.str.lower()
print(df4.columns)示例 24:过滤列
根据条件过滤数据框中的行。
# 单列过滤
print(df4[df4['average_pace'] > 5])
# 多列过滤(与条件)
print(df4[(df4['calories_burned'] < 350) & (df4['total_time'] > 43)])
# 多列过滤(或条件)
print(df4[(df4['calories_burned'] < 350) | (df4['total_time'] > 43)])示例 25:使用 loc 和 iloc 访问数据
通过 loc 和 iloc 方法访问特定行和列。
# 使用 loc 访问单列单行
print(df4.loc[0, 'total_time'])
# 使用 loc 访问所有行单列
print(df4.loc[:, 'total_time'])
# 使用 loc 访问多列
print(df4.loc[:, 'total_time':'calories_burned'])
# 使用 loc 访问指定列
print(df4.loc[:, ['total_time', 'calories_burned']])
# 使用 iloc 访问基于整数索引
print(df4.iloc[0:2, 1:3])总结
通过以上 25个示例,我们详细介绍了 Pandas 中列操作的多种方法,包括访问、创建、修改、排序、清洗等操作。这些技术是数据分析中不可或缺的一部分。建议读者反复练习这些代码,并根据实际需求选择合适的方法。
相关推荐
-
- 驱动网卡(怎么从新驱动网卡)
-
网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...
-
2026-01-30 00:37 liuian
- win10更新助手装系统(微软win10更新助手)
-
1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...
- windows11专业版密钥最新(windows11专业版激活码永久)
-
Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...
-
- 手机删过的软件恢复(手机删除过的软件怎么恢复)
-
操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...
-
2026-01-29 23:55 liuian
- 一键ghost手动备份系统步骤(一键ghost 备份)
-
步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。 步骤...
- 怎么创建局域网(怎么创建局域网打游戏)
-
1、购买路由器一台。进入路由器把dhcp功能打开 2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。 3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...
- 精灵驱动器官方下载(精灵驱动手机版下载)
-
是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...
- 一键还原系统步骤(一键还原系统有哪些)
-
1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。 2、在弹出的“准备安装”窗口中,可...
- 电脑加速器哪个好(电脑加速器哪款好)
-
我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...
- 任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)
-
是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...
- u盘怎么恢复文件(u盘文件恢复的方法)
-
开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...
- 系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)
-
1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...
-
- 剪贴板权限设置方法(剪贴板访问权限)
-
1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...
-
2026-01-29 21:37 liuian
- 平板系统重装大师(平板重装win系统)
-
如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...
- 联想官网售后服务网点(联想官网售后服务热线)
-
联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...
- 一周热门
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
