百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Pandas 常用函数

liuian 2025-03-11 18:02 11 浏览



Pandas 提供了大量用于数据处理和分析的函数,以下是一些常用的函数:

通用函数

函数

描述

pd.isna(obj)

检查对象是否为缺失值(NaN 或 None)。

pd.notna(obj)

检查对象是否不为缺失值。

pd.isnull(obj)

同 pd.isna(),检查对象是否为缺失值。

pd.notnull(obj)

同 pd.notna(),检查对象是否不为缺失值。

pd.concat(objs, axis)

沿指定轴连接多个对象(如 Series 或 DataFrame)。

pd.merge(left, right, on)

根据指定列合并两个 DataFrame。

pd.get_dummies(data)

将分类变量转换为哑变量(One-Hot 编码)。

pd.cut(x, bins)

将连续数据分箱为离散区间。

pd.qcut(x, q)

将数据按分位数分箱。

pd.to_numeric(arg)

将参数转换为数值类型。

pd.to_datetime(arg)

将参数转换为日期时间类型。

pd.to_timedelta(arg)

将参数转换为时间差类型。

pd.date_range(start, end)

生成日期范围。

pd.period_range(start, end)

生成周期范围。

pd.timedelta_range(start, end)

生成时间差范围。

pd.unique(values)

返回数组中的唯一值。

pd.value_counts(values)

返回数组中每个值的频率。

pd.factorize(values)

将数组编码为枚举类型。

pd.crosstab(index, columns)

计算交叉表。

pd.pivot_table(data, values, index, columns)

创建透视表。

pd.melt(frame)

将宽格式数据转换为长格式数据。

pd.cut(x, bins)

将连续数据分箱为离散区间。

pd.qcut(x, q)

将数据按分位数分箱。


数学和统计函数

函数

描述

pd.Series.sum()

返回 Series 的和。

pd.Series.mean()

返回 Series 的平均值。

pd.Series.median()

返回 Series 的中位数。

pd.Series.min()

返回 Series 的最小值。

pd.Series.max()

返回 Series 的最大值。

pd.Series.std()

返回 Series 的标准差。

pd.Series.var()

返回 Series 的方差。

pd.Series.corr(other)

返回两个 Series 的相关系数。

pd.Series.cov(other)

返回两个 Series 的协方差。

pd.Series.quantile(q)

返回 Series 的分位数。

pd.Series.mode()

返回 Series 的众数。

pd.Series.skew()

返回 Series 的偏度。

pd.Series.kurt()

返回 Series 的峰度。

pd.Series.cumsum()

返回 Series 的累计和。

pd.Series.cumprod()

返回 Series 的累计积。

pd.Series.cummax()

返回 Series 的累计最大值。

pd.Series.cummin()

返回 Series 的累计最小值。


字符串处理函数

函数

描述

pd.Series.str.lower()

将字符串转换为小写。

pd.Series.str.upper()

将字符串转换为大写。

pd.Series.str.strip()

去除字符串两端的空白字符。

pd.Series.str.replace(old, new)

替换字符串中的子串。

pd.Series.str.contains(pattern)

检查字符串是否包含指定模式。

pd.Series.str.split(sep)

按分隔符拆分字符串。

pd.Series.str.cat(others)

连接字符串。

pd.Series.str.extract(regex)

使用正则表达式提取子串。

pd.Series.str.find(sub)

返回子串的起始位置。

pd.Series.str.len()

返回字符串的长度。


时间序列函数

函数

描述

pd.to_datetime(arg)

将参数转换为日期时间类型。

pd.date_range(start, end)

生成日期范围。

pd.Timestamp()

创建一个时间戳对象。

pd.Timedelta()

创建一个时间差对象。

pd.Period()

创建一个周期对象。

pd.Series.dt.year

返回日期时间的年份。

pd.Series.dt.month

返回日期时间的月份。

pd.Series.dt.day

返回日期时间的天数。

pd.Series.dt.hour

返回日期时间的小时数。

pd.Series.dt.minute

返回日期时间的分钟数。

pd.Series.dt.second

返回日期时间的秒数。

pd.Series.dt.weekday

返回日期时间的星期几(0-6)。


实例

import pandas as pd

# 通用函数
s
= pd.Series([1, 2, 3, None])
print(pd.isna(s)) # 检查缺失值

# 数学和统计函数
print(s.sum()) # 计算和



# 字符串处理函数
s_str
= pd.Series(['a', 'b', 'c'])
print(s_str.str.upper()) # 转换为大写

# 时间序列函数
dates
= pd.to_datetime(['2023-01-01', '2023-02-01'])
print(dates.dt.month) # 提取月份



相关推荐

【常识】如何优化Windows 7

优化Windows7可以让这个经典系统运行更流畅,特别是在老旧硬件上。以下是经过整理的实用优化方案,分为基础优化和进阶优化两部分:一、基础优化(适合所有用户)1.关闭不必要的视觉效果右键计算机...

系统优化!Windows 11/10 必做的十个优化配置

以下是为Windows10/11用户整理的10个必做优化配置,涵盖性能提升、隐私保护和系统精简等方面,操作安全且无需第三方工具:1.禁用不必要的开机启动项操作路径:`Ctrl+S...

最好用音频剪辑的软件,使用方法?

QVE音频剪辑是一款简单实用的软件,功能丰富,可编辑全格式音频。支持音频转换、合并、淡入淡出、变速、音量调节等,无时长限制,用户可自由剪辑。剪辑后文件音质无损,支持多格式转换,便于存储与跨设备播放,满...

Vue2 开发总踩坑?这 8 个实战技巧让代码秒变丝滑

前端开发的小伙伴们,在和Vue2打交道的日子里,是不是总被各种奇奇怪怪的问题搞得头大?数据不响应、组件传值混乱、页面加载慢……别慌!今天带来8个超实用的Vue2实战技巧,每一个都能直击痛...

Motion for Vue:为Vue量身定制的强大动画库

在前端开发中,动画效果是提升用户体验的重要手段。Vue生态系统中虽然有许多动画库,但真正能做到高性能、易用且功能丰富的并不多。今天,我们要介绍的是MotionforVue(motion-v),...

CSS view():JavaScript 滚动动画的终结

前言CSSview()方法可能会标志着JavaScript在制作滚动动画方面的衰落。如何用5行CSS代码取代50多行繁琐的JavaScript,彻底改变网页动画每次和UI/U...

「大数据」 hive入门

前言最近会介入数据中台项目,所以会推出一系列的跟大数据相关的组件博客与文档。Hive这个大数据组件自从Hadoop诞生之日起,便作为Hadoop生态体系(HDFS、MR/YARN、HIVE、HBASE...

青铜时代的终结:对奖牌架构的反思

作者|AdamBellemare译者|王强策划|Tina要点运维和分析用例无法可靠地访问相关、完整和可信赖的数据。需要一种新的数据处理方法。虽然多跳架构已经存在了几十年,并且可以对...

解析IBM SQL-on-Hadoop的优化思路

对于BigSQL的优化,您需要注意以下六个方面:1.平衡的物理设计在进行集群的物理设计需要考虑数据节点的配置要一致,避免某个数据节点性能短板而影响整体性能。而对于管理节点,它虽然不保存业务数据,但作...

交易型数据湖 - Apache Iceberg、Apache Hudi和Delta Lake的比较

图片由作者提供简介构建数据湖最重要的决定之一是选择数据的存储格式,因为它可以大大影响系统的性能、可用性和兼容性。通过仔细考虑数据存储的格式,我们可以增强数据湖的功能和性能。有几种不同的选择,每一种都有...

深入解析全新 AWS S3 Tables:重塑数据湖仓架构

在AWSre:Invent2024大会中,AWS发布了AmazonS3Tables:一项专为可扩展存储和管理结构化数据而设计的解决方案,基于ApacheIceberg开放表格...

Apache DataFusion查询引擎简介

简介DataFusion是一个查询引擎,其本身不具备存储数据的能力。正因为不依赖底层存储的格式,使其成为了一个灵活可扩展的查询引擎。它原生支持了查询CSV,Parquet,Avro,Json等存储格式...

大数据Hadoop之——Flink Table API 和 SQL(单机Kafka)

一、TableAPI和FlinkSQL是什么TableAPI和SQL集成在同一套API中。这套API的核心概念是Table,用作查询的输入和输出,这套API都是批处理和...

比较前 3 名Schema管理工具

关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。在本文中,读者将了解三种顶级schema管理工具,如AWSGlue、ConfluentSchemaRegistry和Memph...

大数据技术之Flume

第1章概述1.1Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2Flume的优点1.可以和...