百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python Pandas 数据列操作详解_pandas列计算

liuian 2025-08-31 03:56 5 浏览

本文旨在深入探讨 Python Pandas 库中列操作的各种方法和技巧,通过 25 个具体示例,帮助读者全面理解列的创建、访问、修改、排序、清洗等操作。本文基于 Pandas 和 NumPy 库,结合实际代码示例,涵盖从基础到高级的列操作内容。


准备工作

在开始列操作之前,我们需要导入必要的库并准备示例数据。以下是初始化代码:

import pandas as pd
import numpy as np
# 示例数据
data = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Last Name': ['Smith', 'Johnson', 'Williams', 'Brown', 'Jones'],
'Marathon Time Hours': [3.5, 4.0, 3.8, 4.2, 3.9],
'50 Miler Time Hours': [8.0, 9.0, 8.5, 10.0, 9.5],
'100 Miler Time Hours': [20.0, 22.0, 21.0, 23.0, 22.5],
'Last Race Date': ['2023-10-01', '2023-09-15', '2023-08-20', '2023-07-10', '2023-06-05'],
'Running Club ID': [101, 102, 103, 104, 105]
}
# 创建数据框
df = pd.DataFrame(data)

运行 df.head() 可查看数据框的前几行,确保数据正确加载。


列操作示例

以下是 25 个示例,涵盖列的访问、创建、修改、排序、清洗等操作。

示例 1:访问单列

可以通过列名直接访问数据框中的某一列。

# 方法 1:使用方括号
print(df['Runner'])
# 方法 2:使用点号
print(df.Runner)

示例 2:访问多列

使用双括号可以同时访问多个列。

print(df[['Runner', 'Marathon Time Hours']])

示例 3:获取所有列名

有多种方法可以获取数据框的所有列名。

# 方法 1:使用 columns 属性
print(df.columns)
# 方法 2:使用 columns.values
print(df.columns.values)
# 方法 3:转为列表
print(list(df.columns))
# 方法 4:使用 keys() 方法
print(df.keys().to_list())

示例 4:排序列名

可以通过 sorted() 函数对列名进行排序。

print(sorted(df.columns))

示例 5:使用循环遍历列名

通过循环可以逐个访问列名。

for column_name in df.columns:
     print(column_name)

示例 6:处理大量列

当数据框包含大量列时(例如 100 列),可以通过设置 Pandas 显示选项查看所有列。

# 生成 100 列的随机数据
num_rows = 100
num_cols = 100
data = np.random.rand(num_rows, num_cols)
column_names = [f'Column {i+1}' for i in range(num_cols)]
df100 = pd.DataFrame(data, columns=column_names)
# 设置显示所有列
pd.set_option('display.max_columns', None)
# 或:pd.options.display.max_columns = None
print(df100)

示例 7:查看列数据类型

使用 dtypes 属性可以查看每列的数据类型。

print(df.dtypes)

示例 8:转换列数据类型

可以将列转换为特定数据类型,例如将日期字符串转换为 datetime 类型。

# 转换为 datetime
df['Last Race Date'] = pd.to_datetime(df['Last Race Date'])
print(df.dtypes)
# 转换为 float
df['Running Club ID'] = df['Running Club ID'].astype(float)
print(df.dtypes)
# 转换为字符串
df['Running Club ID'] = df['Running Club ID'].astype(str)
print(df.dtypes)

示例 9:重命名列

使用 rename 方法可以重命名列。

df.rename(columns={'Marathon Time Hours': '262 Time Hours'}, inplace=True)
print(df.head())

示例 10:基于数值创建新列

可以通过计算现有列的值来创建新列。

df['Total Time'] = df['262 Time Hours'] + df['50 Miler Time Hours'] + df['100 Miler Time Hours']
print(df.head())

示例 11:基于字符串创建新列

通过拼接字符串列创建新列。

df['Full Name'] = df['Runner'] + ' ' + df['Last Name']
print(df.head())

示例 12:从外部数据创建新列

可以从外部列表为数据框添加新列。

shirt_sizes = ['Small', 'Medium', 'Large', 'XL', 'Small']
df['Race Shirt Size'] = shirt_sizes
print(df.head())

示例 13:删除列

使用 drop 方法删除指定列。

df.drop(columns=['Race Shirt Size'], inplace=True)
print(df.head())

示例 14:重新排序列

可以通过重新定义列顺序来调整数据框的列排列。

df = df[['Full Name', 'Running Club ID', '262 Time Hours', '50 Miler Time Hours', '100 Miler Time Hours', 'Total Time']]
print(df.head())

示例 15:设置索引

可以将某列设置为索引。

df.set_index('Full Name', inplace=True)
print(df.head())

示例 16:设置多列索引

可以将多列组合设置为索引。

df.set_index(['Full Name', 'Running Club ID'], inplace=True)
print(df.head())

示例 17:重置索引

将索引重置为默认的整数索引。

df.reset_index(inplace=True)
print(df.head())

示例 18:获取数值列

使用 select_dtypes 方法获取数值类型的列。

numeric_columns = df.select_dtypes(include='number').columns
print(numeric_columns)

示例 19:描述统计

使用 describe 方法获取数值列的统计信息。

print(df.describe())

示例 20:为未命名列设置列名

创建数据框时未指定列名,可以在创建后设置。

df2 = pd.DataFrame([[23, 22, 21, 20, 19.55, 18.55]])
df2.columns = ['Race 1', 'Race 2', 'Race 3', 'Race 4', 'Race 5', 'Race 6']
print(df2)

示例 21:处理缺失值

以下示例展示如何处理包含缺失值的数据。

# 示例数据
data3 = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Time in Minutes': [25, None, 30, 28, None],
'Distance in Kilometers': [5, 5, None, 10, 5],
'Temperature Celsius': [20, None, 22, 21, None],
'Location': ['Park', 'Track', None, 'Road', None]
}
df3 = pd.DataFrame(data3)
# 检查单列缺失值
print(df3['Time in Minutes'].isna())
# 检查所有列的缺失值
print(df3.columns[df3.isna().any()].to_list())
# 填充缺失值
df3['Time in Minutes'] = df3['Time in Minutes'].fillna(30)
print(df3)
# 删除包含缺失值的行
df3_drop = df3.dropna(subset=['Distance in Kilometers'])
print(df3_drop)
# 删除包含缺失值的列
df3_drop_col = df3.dropna(axis=1)
print(df3_drop_col)

示例 22:插入新列

在指定位置插入新列,例如将温度从摄氏度转换为华氏度。

fahrenheit = df3['Temperature Celsius'] * 9/5 + 32
df3.insert(2, 'Temperature Fahrenheit', fahrenheit)
print(df3)

示例 23:清理列名

清理列名中的空格或不规范字符。

# 示例数据
data4 = {
' Runner Name ': ['Alex', 'Bob', 'Charlie'],
' Average Pace ': [4.5, 5.2, 4.8],
' Total Time ': [30, 45, 40],
' Calories Burned ': [300, 400, 350]
}
df4 = pd.DataFrame(data4)
# 移除列名两端的空格
df4.columns = df4.columns.str.strip()
print(df4.columns)
# 将空格替换为下划线
df4.columns = df4.columns.str.replace(' ', '_')
print(df4.columns)
# 转换为小写
df4.columns = df4.columns.str.lower()
print(df4.columns)

示例 24:过滤列

根据条件过滤数据框中的行。

# 单列过滤
print(df4[df4['average_pace'] > 5])
# 多列过滤(与条件)
print(df4[(df4['calories_burned'] < 350) & (df4['total_time'] > 43)])
# 多列过滤(或条件)
print(df4[(df4['calories_burned'] < 350) | (df4['total_time'] > 43)])

示例 25:使用 loc 和 iloc 访问数据

通过 loc 和 iloc 方法访问特定行和列。

# 使用 loc 访问单列单行
print(df4.loc[0, 'total_time'])
# 使用 loc 访问所有行单列
print(df4.loc[:, 'total_time'])
# 使用 loc 访问多列
print(df4.loc[:, 'total_time':'calories_burned'])
# 使用 loc 访问指定列
print(df4.loc[:, ['total_time', 'calories_burned']])
# 使用 iloc 访问基于整数索引
print(df4.iloc[0:2, 1:3])

总结

通过以上 25个示例,我们详细介绍了 Pandas 中列操作的多种方法,包括访问、创建、修改、排序、清洗等操作。这些技术是数据分析中不可或缺的一部分。建议读者反复练习这些代码,并根据实际需求选择合适的方法。

相关推荐

Html中Css样式Ⅱ_html+css+

元素的定位(方式五种定位方式):静态定位:position:static;相对定位:position:relative;绝对定位:position:absolute;固定定位:position...

HTML 标签和属性值的基本格式_html标签及属性的语法规则

HTML:HyperTextMarkupLanguage超文本标记语言HTML代码不区分大小写,包括HTML标记、属性、属性值都不区分大小写;任何空格或回车键在代码中都无效,插入空格或回车有...

基于Visual Studio C#语言开发上位机,做定制设计后有多好看

...

C#中使用Halcon开发视觉检测程序教程

一、环境准备1.安装Halcon从Halcon官方网站下载适合你操作系统的安装包,按照安装向导完成安装。安装过程中,记住安装路径,后续配置环境时会用到。2.配置VisualStudio项目打开V...

【开源】C#功能强大,灵活的跨平台开发框架 - Uno Platform

前言今天给广大网友分享一个基于C#开源、功能强大、灵活的跨平台开发框架,她就是:UnoPlatform。通过UnoPlatform,开发者可以利用单一代码库实现多平台兼容,极大地提高了开发效率和...

C# 的发展简史_c#的发展前景

1.C#的诞生和初期(2000-2005)2000年:在微软的PDC大会上,由AndersHejlsberg首次公开展示了C#语言。2002年:微软发布了.NETFramework1.0,其...

Visual Studio 2010-C#跟西门子1200(Sharp7)窗体控制②-启动按钮

VisualStudio2010--C#跟西门子1200(Sharp7)窗体控制②--启动按钮上期回顾(上期主要是新建窗体应用程序,添加sharp7的类库并引用,建立一个button按钮):本期将...

Visual Studio窗口布局混乱后的恢复与优化指南

在使用VisualStudio进行开发时,我们常因误操作(如拖拽窗口、关闭面板、多显示器切换)导致界面布局混乱,代码编辑器、解决方案资源管理器、属性面板等组件“错位”,严重影响开发效率。本文将针对布...

使用Visual Studio 2017为AutoCAD创建一个c#模板

本教程的目标是展示如何在VisualStudio2017中创建AutoCAD的c#项目模板,该模板允许在调试模式下从VisualStudio加载DLL来自动启动AutoCAD。本文展示的示例使用...

IT科技-续3Visual Studio2019-C#实战练习

上次完成了登录页面的窗体设计,本次完成管理界面的设计。第一步ComBox控制深度操作点击编辑选项,加入预定选项,完成操作。第二步复制Buttons控件依次为保存、删除、重置、编辑按钮属性设置,参考...

如何在 C# 中将文本转换为 Word 以及将 Word 转换为文本

在现代软件开发中,处理文档内容是一个非常常见的需求。无论是生成报告、存储日志,还是处理用户输入,开发者都可能需要在纯文本与Word文档之间进行转换。有时需要将文本转换为Word,以便生成结构化的...

简短的C#入门教程 # C# 入门教程 C#(读作...

简短的C#入门教程#C#入门教程C#(读作CSharp)是一种由Microsoft开发的多范式编程语言,它具有广泛的应用,特别是在Windows平台上。本教程将介绍C#的基础知识,以帮助您入门这...

JavaScript中this指向各种场景_前端中this的指向

在JavaScript中,this的指向是一个核心概念,其值取决于函数的调用方式,而非定义位置(箭头函数除外)。以下是this指向的常见场景及具体说明:1.全局作用域中的this在全局作用域(非...

微信WeUI设计规范文件下载及使用方法

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。WeUI是一套同微信原生视觉体验一致的基础样式库,由微信官方设计团队为微信Web开发量身设计,可以令用户的使用感知...

JavaScript技术:如何动态添加事件?

随着前端技术的不断发展,JavaScript已经成为了不可或缺的一部分,它可以让网页变得更加流畅和美观。但是,在JavaScript中动态添加事件还是一个比较困难的问题,为此,本文将从入门到精通,介绍...