超全的100个Pandas函数汇总
liuian 2025-01-10 15:15 37 浏览
上次分享了10个使用频率非常高的Pandas函数,同学们都觉得很有用。今天,咱们继续~~
我整理了100个Pandas常用的函数,分别分为6类:统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。赶紧收藏起来吧!
统计汇总函数
函数 | 含义 |
min() | 计算最小值 |
max() | 计算最大值 |
sum() | 求和 |
mean() | 计算平均值 |
count() | 计数(统计非缺失元素的个数) |
size() | 计数(统计所有元素的个数) |
median() | 计算中位数 |
var() | 计算方差 |
std() | 计算标准差 |
quantile() | 计算任意分位数 |
cov() | 计算协方差 |
corr() | 计算相关系数 |
skew() | 计算偏度 |
kurt() | 计算峰度 |
mode() | 计算众数 |
describe() | 描述性统计(一次性返回多个统计结果) |
groupby() | 分组 |
aggregate() | 聚合运算(可以自定义统计函数) |
argmin() | 寻找最小值所在位置 |
argmax() | 寻找最大值所在位置 |
any() | 等价于逻辑“或” |
all() | 等价于逻辑“与” |
value_counts() | 频次统计 |
cumsum() | 运算累计和 |
cumprod() | 运算累计积 |
pct--_change() | 运算比率(后一个元素与前一个元素的比率) |
# describe函数总结数据集分布的集中趋势,分散和形状
import numpy as np
import pandas as pd
data = {'a':[12,13,14,15,11],'b':['a','b','c','d','c']}
df = pd.DataFrame(data)
df.describe() #默认返回数字字段
df.describe(include='all')数据清洗函数
函数 | 含义 |
duplicated() | 判断序列元素是否重复。 |
drop_duplicates() | 删除重复值 |
hasnans() | 判断序列是否存在缺失(返回TRUE或FALSE) |
isnull() | 判断序列元素是否为缺失(返回与序列长度一样的bool值) |
notnull() | 判断序列元素是否不为缺失(返回与序列长度一样的bool值) |
dropna() | 删除缺失值 |
fillna() | 缺失值填充 |
ffill() | 前向后填充缺失值(使用缺失值的前一个元素填充) |
bfill() | 后向填充缺失值(使用缺失值的后一个元素填充) |
dtypes() | 检查数据类型 |
astype() | 类型强制转换 |
pd.to_datetime | 转日期时间型 |
factorize() | 因子化转换 |
sample() | 抽样 |
where() | 基于条件判断的值替换 |
replace() | 按值替换(不可使用正则) |
str.replace() | 按值替换(可使用正则) |
str.split.str() | 字符分隔 |
import numpy as np
import pandas as pd
data = {'a':[12,13,14,15,12],'b':['a','b','c','d','c']}
df = pd.DataFrame(data)
df.duplicated('a')
df.drop_duplicates('a','first',inplace = True) #删除重复项并保留第一次出现的项
df数据筛选函数
函数 | 含义 |
isin() | 成员关系判断 |
between() | 区间判断 |
loc() | 条件判断(可使用在数据框中) |
iloc() | 索引判断(可使用在数据框中) |
compress() | 条件判断 |
nlargest() | 搜寻最大的n个元素 |
nsmallest() | 搜寻最小的n个元素 |
str.findall() | 子串查询(可使用正则) |
df = pd.DataFrame({'population': [59000000,65000000,434000,434000,434000,337000,11300,11300,11300],
'GDP': [1937894,2583560,12011,4520,12128,17036,182,38,311],
'alpha-2': ["IT","FR","MT","MV","BN","IS","NR","TV","AI"]},
index=["Italy", "France","Malta","Maldives","Brunei","Iceland","Nauru","Tuvalu","Anguilla"])
df
df.nlargest(3, 'population') #搜寻“population”列中具有最大值的三行绘图与元素级运算函数
函数 | 含义 |
hist() | 绘制直方图 |
plot() | 可基于kind参数绘制更多图形(饼图,折线图,箱线图等) |
map() | 元素映射 |
apply() | 基于自定义函数的元素级操作 |
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt #使用 matplotlib 仅仅是用来 show 图片
df = pd.read_csv('forestfires.csv')
df.plot('temp','FFMC',kind = 'scatter',color='LightGreen') # scatter散点图
plt.show()时间序列函数
函数 | 含义 |
dt.date() | 抽取出日期值 |
dt.time() | 抽取出时间(时分秒) |
dt.year() | 抽取出年 |
dt.mouth() | 抽取出月 |
dt.day() | 抽取出日 |
dt.hour() | 抽取出时 |
dt.minute() | 抽取出分钟 |
dt.second() | 抽取出秒 |
dt.quarter() | 抽取出季度 |
dt.weekday() | 抽取出星期几(返回数值型) |
dt.weekday_name() | 抽取出星期几(返回字符型) |
dt.week() | 抽取出年中的第几周 |
dt.dayofyear() | 抽取出年中的第几天 |
dt.daysinmonth() | 抽取出月对应的最大天数 |
dt.is_month_start() | 判断日期是否为当月的第一天 |
dt.is_month_end() | 判断日期是否为当月的最后一天 |
dt.is_quarter_start() | 判断日期是否为当季度的第一天 |
dt.is_quarter_end() | 判断日期是否为当季度的最后一天 |
dt.is_year_start() | 判断日期是否为当年的第一天 |
dt.is_year_end() | 判断日期是否为当年的最后一天 |
dt.is_leap_year() | 判断日期是否为闰年 |
其他函数
函数 | 含义 |
append() | 序列元素的追加(需指定其他序列) |
diff() | 一阶差分 |
round() | 元素的四舍五入 |
sort_values() | 按值排序 |
sort_index() | 按索引排序 |
to_dict() | 转为字典 |
tolist() | 转为列表 |
unique() | 元素排重 |
- 上一篇:数据清洗之pandas看后你就会用了
- 下一篇:天秀!一张图就能彻底搞定Pandas
相关推荐
- qualcomm无线网卡驱动(高科无线网卡驱动)
-
先找个这个,然后卸载驱动程序,然后在装驱动,如果安装不成功,就去官网找驱动,驱动精灵的有时候不行。1、检查网线是否插好首先,我们需要检查下网线是否插好了。如果网线插口没插好,电脑就无法检测到网络信号...
- 虚拟内存设置多少合适16g(虚拟内存数值设置多少合适)
-
16g内存虚拟内存要调到24576MB才合适。虚拟内存的设置大小一般是物理内存的1.5倍,16G的内存可以考虑调整为24576MB。如果只用于办公方面,那么运行内存大于或等于4G,不用设置虚拟内存。如...
- 系统光盘镜像下载(系统光盘镜像文件转换到u盘)
-
要在虚拟机中使用映像文件,需要先将映像文件下载到本地计算机上,然后将其上传到虚拟机中。以下是下载映像文件的步骤:1.打开虚拟机管理软件,例如VMwareWorkstation或Virtual...
- ghost系统盘制作(制作ghost启动盘)
-
首先,需要准备东西如下:光驱起码要支持DVD刻录吧,您要是Combo刻CD还真不好意思和别人打招呼。。。DVD白盘若干,一张随便什么样的可引导系统盘(里面有ghost的那种),nero软件,Ultra...
- cad2008序列号和激活码(cad2008序列号密钥)
-
2008cad注册码是666-98989898。双击“AutoCAD2008Chs_运行获取激活码.exe”,将注册界面上的申请号粘贴到“AutoCAD2008Chs_运行获取激活码.exe”申请号一...
-
- 电脑无线网连不上怎么办(电脑无线网连接不上怎么回事)
-
1、打开“控制面板”,点击“网络和Internet”。2、点击“网络和共享中心”。3、点击“更改适配器设置”。4、鼠标右键单击需要连接的网络,在弹出的对话框中,点击“属性”。5、选中“Internet协议版本4(TCP/IPv4)”,...
-
2025-11-28 23:55 liuian
- u盘如何恢复删除的文件(如何恢复u盘中被删除的文件)
-
如果您在使用WPS时误删了U盘文件,可以使用以下几种方法来恢复文件:1.检查回收站:首先检查一下您的回收站中是否有被误删的文件,如果有,可以将文件恢复回来。2.使用WPS数据恢...
- 推特官网入口(推特官网入口网页登录网址)
-
首先在浏览器中打开推特的官网,然后点击页面上的“注册”创建账号。Twitter可以让用户更新不超过140个字符的消息(除中文、日文和韩语外已提高上限至280个字符),这些消息也被称作“推文(Tweet...
- windows7如何清理c盘(win7怎么清理c盘)
-
1.打开桌面计算机,右键点击“C盘”,并选取“属性”。2.待新窗口弹出后,依次点击“工具”、“立即进行碎片整理”。3.最后,选取C盘,在按下“磁盘碎片整理”按钮,系统就会对C盘进行分析,并进行整理。4...
- win10自带分区工具(win10官方分区工具)
-
Win10自带的分区工具是磁盘管理器,可以用来创建、删除、格式化和调整磁盘分区。下面是使用磁盘管理器分区的步骤:1.打开磁盘管理器。您可以在Windows10搜索栏中输入“磁盘管理器”来快速打开。...
- appstore正版下载软件(apple store下载正版)
-
不会,他是正版的,因为只有ios系统可以用,但他里面的好游戏都是要收费的,所以打架都要越狱,去其它地方下载,不去商店的在安卓上,GooglePlayStore是类似于苹果的AppStore一...
- 手机锁屏密码键盘没了(手机输入密码的键盘没了怎么办)
-
如果手机锁屏密码的键盘找不到,首先要确认是否是由于软件问题导致的。可以尝试重启手机或者清理手机缓存来解决。如果问题仍然存在,可以尝试更换输入法或者恢复手机出厂设置来解决。如果以上方法都没有效果,建议联...
- 移动硬盘跟固态硬盘的区别(移动硬盘跟固态硬盘的区别是什么)
-
一:移动硬盘移动硬盘是指以传统机械磁盘作为存储介质,用于计算机之间交换大容量数据,讲究移动便携性的存储产品。优点:具有容量大、价格便宜的特点,方便存储大量文件数据。(推荐学习:web前端视频教程)缺...
- windows怎么截图快捷键(windows截图快捷键没反应)
-
1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后,可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可。2、按Ctrl+Prtsc键截图...
- 显示器分辨率有哪几种(显示器屏幕分辨率都有哪些)
-
目前使用较多的显示器分辨率有640*480,800*600,1024*768,1280*1024四种。刷新率,这主要是指显示器显示画面每秒刷新的次数,现在的电脑显示屏刷新率一般为75Hz,如果刷新率在...
- 一周热门
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
