Python Pandas 数据列操作详解_pandas列计算
liuian 2025-08-31 03:56 23 浏览
本文旨在深入探讨 Python Pandas 库中列操作的各种方法和技巧,通过 25 个具体示例,帮助读者全面理解列的创建、访问、修改、排序、清洗等操作。本文基于 Pandas 和 NumPy 库,结合实际代码示例,涵盖从基础到高级的列操作内容。
准备工作
在开始列操作之前,我们需要导入必要的库并准备示例数据。以下是初始化代码:
import pandas as pd
import numpy as np
# 示例数据
data = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Last Name': ['Smith', 'Johnson', 'Williams', 'Brown', 'Jones'],
'Marathon Time Hours': [3.5, 4.0, 3.8, 4.2, 3.9],
'50 Miler Time Hours': [8.0, 9.0, 8.5, 10.0, 9.5],
'100 Miler Time Hours': [20.0, 22.0, 21.0, 23.0, 22.5],
'Last Race Date': ['2023-10-01', '2023-09-15', '2023-08-20', '2023-07-10', '2023-06-05'],
'Running Club ID': [101, 102, 103, 104, 105]
}
# 创建数据框
df = pd.DataFrame(data)运行 df.head() 可查看数据框的前几行,确保数据正确加载。
列操作示例
以下是 25 个示例,涵盖列的访问、创建、修改、排序、清洗等操作。
示例 1:访问单列
可以通过列名直接访问数据框中的某一列。
# 方法 1:使用方括号
print(df['Runner'])
# 方法 2:使用点号
print(df.Runner)示例 2:访问多列
使用双括号可以同时访问多个列。
print(df[['Runner', 'Marathon Time Hours']])示例 3:获取所有列名
有多种方法可以获取数据框的所有列名。
# 方法 1:使用 columns 属性
print(df.columns)
# 方法 2:使用 columns.values
print(df.columns.values)
# 方法 3:转为列表
print(list(df.columns))
# 方法 4:使用 keys() 方法
print(df.keys().to_list())示例 4:排序列名
可以通过 sorted() 函数对列名进行排序。
print(sorted(df.columns))示例 5:使用循环遍历列名
通过循环可以逐个访问列名。
for column_name in df.columns:
print(column_name)示例 6:处理大量列
当数据框包含大量列时(例如 100 列),可以通过设置 Pandas 显示选项查看所有列。
# 生成 100 列的随机数据
num_rows = 100
num_cols = 100
data = np.random.rand(num_rows, num_cols)
column_names = [f'Column {i+1}' for i in range(num_cols)]
df100 = pd.DataFrame(data, columns=column_names)
# 设置显示所有列
pd.set_option('display.max_columns', None)
# 或:pd.options.display.max_columns = None
print(df100)示例 7:查看列数据类型
使用 dtypes 属性可以查看每列的数据类型。
print(df.dtypes)示例 8:转换列数据类型
可以将列转换为特定数据类型,例如将日期字符串转换为 datetime 类型。
# 转换为 datetime
df['Last Race Date'] = pd.to_datetime(df['Last Race Date'])
print(df.dtypes)
# 转换为 float
df['Running Club ID'] = df['Running Club ID'].astype(float)
print(df.dtypes)
# 转换为字符串
df['Running Club ID'] = df['Running Club ID'].astype(str)
print(df.dtypes)示例 9:重命名列
使用 rename 方法可以重命名列。
df.rename(columns={'Marathon Time Hours': '262 Time Hours'}, inplace=True)
print(df.head())示例 10:基于数值创建新列
可以通过计算现有列的值来创建新列。
df['Total Time'] = df['262 Time Hours'] + df['50 Miler Time Hours'] + df['100 Miler Time Hours']
print(df.head())示例 11:基于字符串创建新列
通过拼接字符串列创建新列。
df['Full Name'] = df['Runner'] + ' ' + df['Last Name']
print(df.head())示例 12:从外部数据创建新列
可以从外部列表为数据框添加新列。
shirt_sizes = ['Small', 'Medium', 'Large', 'XL', 'Small']
df['Race Shirt Size'] = shirt_sizes
print(df.head())示例 13:删除列
使用 drop 方法删除指定列。
df.drop(columns=['Race Shirt Size'], inplace=True)
print(df.head())示例 14:重新排序列
可以通过重新定义列顺序来调整数据框的列排列。
df = df[['Full Name', 'Running Club ID', '262 Time Hours', '50 Miler Time Hours', '100 Miler Time Hours', 'Total Time']]
print(df.head())示例 15:设置索引
可以将某列设置为索引。
df.set_index('Full Name', inplace=True)
print(df.head())示例 16:设置多列索引
可以将多列组合设置为索引。
df.set_index(['Full Name', 'Running Club ID'], inplace=True)
print(df.head())示例 17:重置索引
将索引重置为默认的整数索引。
df.reset_index(inplace=True)
print(df.head())示例 18:获取数值列
使用 select_dtypes 方法获取数值类型的列。
numeric_columns = df.select_dtypes(include='number').columns
print(numeric_columns)示例 19:描述统计
使用 describe 方法获取数值列的统计信息。
print(df.describe())示例 20:为未命名列设置列名
创建数据框时未指定列名,可以在创建后设置。
df2 = pd.DataFrame([[23, 22, 21, 20, 19.55, 18.55]])
df2.columns = ['Race 1', 'Race 2', 'Race 3', 'Race 4', 'Race 5', 'Race 6']
print(df2)示例 21:处理缺失值
以下示例展示如何处理包含缺失值的数据。
# 示例数据
data3 = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Time in Minutes': [25, None, 30, 28, None],
'Distance in Kilometers': [5, 5, None, 10, 5],
'Temperature Celsius': [20, None, 22, 21, None],
'Location': ['Park', 'Track', None, 'Road', None]
}
df3 = pd.DataFrame(data3)
# 检查单列缺失值
print(df3['Time in Minutes'].isna())
# 检查所有列的缺失值
print(df3.columns[df3.isna().any()].to_list())
# 填充缺失值
df3['Time in Minutes'] = df3['Time in Minutes'].fillna(30)
print(df3)
# 删除包含缺失值的行
df3_drop = df3.dropna(subset=['Distance in Kilometers'])
print(df3_drop)
# 删除包含缺失值的列
df3_drop_col = df3.dropna(axis=1)
print(df3_drop_col)示例 22:插入新列
在指定位置插入新列,例如将温度从摄氏度转换为华氏度。
fahrenheit = df3['Temperature Celsius'] * 9/5 + 32
df3.insert(2, 'Temperature Fahrenheit', fahrenheit)
print(df3)示例 23:清理列名
清理列名中的空格或不规范字符。
# 示例数据
data4 = {
' Runner Name ': ['Alex', 'Bob', 'Charlie'],
' Average Pace ': [4.5, 5.2, 4.8],
' Total Time ': [30, 45, 40],
' Calories Burned ': [300, 400, 350]
}
df4 = pd.DataFrame(data4)
# 移除列名两端的空格
df4.columns = df4.columns.str.strip()
print(df4.columns)
# 将空格替换为下划线
df4.columns = df4.columns.str.replace(' ', '_')
print(df4.columns)
# 转换为小写
df4.columns = df4.columns.str.lower()
print(df4.columns)示例 24:过滤列
根据条件过滤数据框中的行。
# 单列过滤
print(df4[df4['average_pace'] > 5])
# 多列过滤(与条件)
print(df4[(df4['calories_burned'] < 350) & (df4['total_time'] > 43)])
# 多列过滤(或条件)
print(df4[(df4['calories_burned'] < 350) | (df4['total_time'] > 43)])示例 25:使用 loc 和 iloc 访问数据
通过 loc 和 iloc 方法访问特定行和列。
# 使用 loc 访问单列单行
print(df4.loc[0, 'total_time'])
# 使用 loc 访问所有行单列
print(df4.loc[:, 'total_time'])
# 使用 loc 访问多列
print(df4.loc[:, 'total_time':'calories_burned'])
# 使用 loc 访问指定列
print(df4.loc[:, ['total_time', 'calories_burned']])
# 使用 iloc 访问基于整数索引
print(df4.iloc[0:2, 1:3])总结
通过以上 25个示例,我们详细介绍了 Pandas 中列操作的多种方法,包括访问、创建、修改、排序、清洗等操作。这些技术是数据分析中不可或缺的一部分。建议读者反复练习这些代码,并根据实际需求选择合适的方法。
相关推荐
- 万能网卡驱动下载win11(万能网卡驱动windows7版2018最新版)
-
在windows11系统中点击桌面下方的开始图标,打开设置页面鼠标点击选择设备管理器选项。找到其中的网络适配器功能。右键选择显卡,点击卸载设备按钮等待卸载完成后重新安装驱动并重启计算机设备即可。想要修...
- cpu总是100使用率怎么回事呢
-
CPU占用率100%可能有多种原因。以下是一些可能的原因:驱动没有经过认证,这可能导致CPU资源占用100%。杀毒软件可能会占用大量的CPU资源,因为它们需要实时监控网页、邮件、个人隐私等功能。病毒或...
- 苹果6怎么升级系统版本(苹果6怎么升级系统版本最高能到多少)
-
要是喜欢自己动手可以自己去官网上下载,新系统在更新,他只是不支持自动更新的。如果不想自己动手,可以去拼多多或者是淘宝里面找一找,多的是那种帮你刷新系统的。也就是一点点钱的事情。现在选择很多活人不会被尿...
- windows2003镜像32位下载(win2003系统镜像)
-
虚拟光驱装系统,(win7,xp通用)具体步骤一、将从网上下载的win7旗舰版ISO系统文件存放到D盘。二、从网上下载虚拟光驱,打开安装后在任务栏右通知区显示“虚拟DAEMON管理器”图标,在我的电脑...
- win10电脑自动更新怎么关闭(win10电脑怎么关闭自动更新系统)
-
win10老推送win11打开的方法步骤如下,1,首先,打开设置,点击更新和安全2,打开后,点击windows预览体验计划3,打开后,点击开始4,然后按流程进行注册5,注册完成后,点击选择帐户6,然后...
- window7下载steam(window7下载一键重装如何恢复网络)
-
回答如下:要在Windows7上下载Steam,您可以按照以下步骤操作:1.打开您的浏览器,访问Steam官网(https://store.steampowered.com)。2.点击页面右上角...
- 系统还原没有还原点怎么办(系统还原点不动怎么办)
-
如果电脑没有创建还原点,就不能使用系统还原来回到之前的状态。但是,可以尝试使用其他备份工具或软件来恢复数据或重建系统。比如,可以使用第三方备份软件来备份重要文件和数据。如果是系统出现问题,可以尝试重新...
- 正在准备windows(正在准备windows请勿关机怎么办)
-
这个情况在使用华为电脑时可能会遇到。一般来说,这是因为电脑正在进行系统更新或者安装软件程序等操作,导致启动时间较长。如果电脑显示“正在准备Windows,请勿关闭电源”,则说明电脑正在进行系统更新。...
-
- 有win10安装包怎么装系统(win10安装包安装教程)
-
如果是原版ISO镜像,可以加载到虚拟光驱直接安装。如果是第三方更改的就需要启动盘。个人建议用U盘启动盘来安装。下载一个u盘启动盘程序(优启通、大白菜……),按照提示把它安装到U盘。启动盘制作完毕以后,启动电脑安快捷键选择U盘启动。进入pe后...
-
2026-01-14 16:37 liuian
- gho怎么变成iso文件(gho改成iso)
-
要将GHO转换为ISO,您需要使用GHO映像转换器软件。以下是执行此操作的步骤:1.下载和安装GHO映像转换器软件。2.运行转换器软件,并单击“打开”按钮。3.在弹出窗口中,选择要转换的GHO...
- office和visio安装顺序(office和visio怎么一起安装)
-
在某些情况下,安装Visio可能会发生与Office365冲突的问题。这是因为Visio和Office365具有不同的版本,可能会导致安装时出现错误或兼容性问题。为了避免这种冲突,...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
