25个例子学会Pandas Groupby 操作
liuian 2025-01-13 15:30 41 浏览
groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组,分组后的数据可以计算生成组的聚合值。
如果我们有一个包含汽车品牌和价格信息的数据集,那么可以使用groupby功能来计算每个品牌的平均价格。
在本文中,我们将使用25个示例来详细介绍groupby函数的用法。这25个示例中还包含了一些不太常用但在各种任务中都能派上用场的操作。
这里使用的数据集是随机生成的,我们把它当作一个销售的数据集。
import pandas as pd
sales = pd.read_csv("sales_data.csv")
sales.head()
1、单列聚合
我们可以计算出每个店铺的平均库存数量如下:
sales.groupby("store")["stock_qty"].mean()
#输出
store
Daisy 1811.861702
Rose 1677.680000
Violet 14622.406061
Name: stock_qty, dtype: float642、多列聚合
在一个操作中进行多个聚合。以下是我们如何计算每个商店的平均库存数量和价格。
sales.groupby("store")[["stock_qty","price"]].mean()3、多列多个聚合
我们还可以使用agg函数来计算多个聚合值。
sales.groupby("store")["stock_qty"].agg(["mean", "max"])4、对聚合结果进行命名
在前面的两个示例中,聚合列表示什么还不清楚。例如,“mean”并没有告诉我们它是什么的均值。在这种情况下,我们可以对聚合的结果进行命名。
sales.groupby("store").agg(
avg_stock_qty = ("stock_qty", "mean"),
max_stock_qty = ("stock_qty", "max")
)要聚合的列和函数名需要写在元组中。
5、多个聚合和多个函数
sales.groupby("store")[["stock_qty","price"]].agg(["mean", "max"])6、对不同列的聚合进行命名
sales.groupby("store").agg(
avg_stock_qty = ("stock_qty", "mean"),
avg_price = ("price", "mean")
)7、as_index参数
如果groupby操作的输出是DataFrame,可以使用as_index参数使它们成为DataFrame中的一列。
sales.groupby("store", as_index=False).agg(
avg_stock_qty = ("stock_qty", "mean"),
avg_price = ("price", "mean")
)8、用于分组的多列
就像我们可以聚合多个列一样,我们也可以使用多个列进行分组。
sales.groupby(["store","product_group"], as_index=False).agg(
avg_sales = ("last_week_sales", "mean")
).head()每个商店和产品的组合都会生成一个组。
9、排序输出
可以使用sort_values函数根据聚合列对输出进行排序。
sales.groupby(["store","product_group"], as_index=False).agg( avg_sales = ("last_week_sales", "mean")
).sort_values(by="avg_sales", ascending=False).head()这些行根据平均销售值按降序排序。
10、最大的Top N
max函数返回每个组的最大值。如果我们需要n个最大的值,可以用下面的方法:
sales.groupby("store")["last_week_sales"].nlargest(2)
store
Daisy 413 1883
231 947
Rose 948 883
263 623
Violet 991 3222
339 2690
Name: last_week_sales, dtype: int6411、最小的Top N
与最大值相似,也可以求最小值
sales.groupby("store")["last_week_sales"].nsmallest(2)12、第n个值
除上面2个以外,还可以找到一组中的第n个值。
sales_sorted = sales.sort_values(by=["store","last_month_sales"], ascending=False, ignore_index=True)找到每个店铺上个月销售排名第五的产品如下:
sales_sorted.groupby("store").nth(4)输出包含每个组的第5行。由于行是根据上个月的销售值排序的,所以我们将获得上个月销售额排名第五的行。
13、第n个值,倒排序
也可以用负的第n项。例如," nth(-2) "返回从末尾开始的第二行。
sales_sorted.groupby("store").nth(-2)14、唯一值
unique函数可用于查找每组中唯一的值。例如,可以找到每个组中唯一的产品代码如下:
sales.groupby("store", as_index=False).agg(
unique_values = ("product_code","unique")
)15、唯一值的数量
还可以使用nunique函数找到每组中唯一值的数量。
sales.groupby("store", as_index=False).agg(
number_of_unique_values = ("product_code","nunique")
)16、Lambda表达式
可以在agg函数中使用lambda表达式作为自定义聚合操作。
sales.groupby("store").agg(
total_sales_in_thousands = (
"last_month_sales",
lambda x: round(x.sum() / 1000, 1)
)
)17、apply函数
使用apply函数将Lambda表达式应用到每个组。例如,我们可以计算每家店上周销售额与上个月四分之一销售额的差值的平均值,如下:
sales.groupby("store").apply(
lambda x: (x.last_week_sales - x.last_month_sales / 4).mean()
)
store
Daisy 5.094149
Rose 5.326250
Violet 8.965152
dtype: float6418、dropna
缺省情况下,groupby函数忽略缺失值。如果用于分组的列中缺少一个值,那么它将不包含在任何组中,也不会单独显示。所以可以使用dropna参数来改变这个行为。
让我们首先添加一个缺少存储值的新行。
sales.loc[1000] = [None, "PG2", 10000, 120, 64, 96, 15, 53]然后计算带有dropna参数和不带有dropna参数的每个商店的平均价格,以查看差异。
sales.groupby("store")["price"].mean()
store
Daisy 69.327426
Rose 60.513700
Violet 67.808727
Name: price, dtype: float64看看设置了缺失值参数的结果:
sales.groupby("store", dropna=False)["price"].mean()
store
Daisy 69.327426
Rose 60.513700
Violet 67.808727
NaN 96.000000
Name: price, dtype: float64groupby函数的dropna参数,使用pandas版本1.1.0或更高版本。
19、求组的个数
有时需要知道生成了多少组,这可以使用ngroups。
sales.groupby(["store", "product_group"]).ngroups
18在商店和产品组列中有18种不同值的不同组合。
20、获得一个特定分组
get_group函数可获取特定组并且返回DataFrame。
例如,我们可以获得属于存储“Daisy”和产品组“PG1”的行如下:
aisy_pg1 = sales.groupby(
["store", "product_group"]).get_group(("Daisy","PG1")
)
daisy_pg1.head()21、rank函数
rank函数用于根据给定列中的值为行分配秩。我们可以使用rank和groupby函数分别对每个组中的行进行排序。
sales["rank"] = sales.groupby("store"["price"].rank(
ascending=False, method="dense"
)
sales.head()22、累计操作
们可以计算出每组的累计总和。
import numpy as npdf = pd.DataFrame(
{
"date": pd.date_range(start="2022-08-01", periods=8, freq="D"),
"category": list("AAAABBBB"),
"value": np.random.randint(10, 30, size=8)
}
)我们可以单独创建一个列,包含值列的累计总和,如下所示:
df["cum_sum"] = df.groupby("category")["value"].cumsum()23、expanding函数
expanding函数提供展开转换。但是对于展开以后的操作还是需要一个累计函数来堆区操作。例如它与cumsum 函数一起使用,结果将与与sum函数相同。
df["cum_sum_2"] = df.groupby(
"category"
)["value"].expanding().sum().values24、累积平均
利用展开函数和均值函数计算累积平均。
df["cum_mean"] = df.groupby(
"category"
)["value"].expanding().mean().values25、展开后的最大值
可以使用expand和max函数记录组当前最大值。
df["current_highest"] = df.groupby(
"category"
)["value"].expanding().max().values在Pandas中groupby函数与aggregate函数共同构成了高效的数据分析工具。在本文中所做的示例涵盖了groupby功能的大多数用例,希望对你有所帮助。
作者:Soner Y?ld?r?m
相关推荐
- 不用电脑怎么恢复(不用电脑怎么恢复出厂设置)
-
操作方法01方法一:通过设置重置电脑使用快捷键Windows+A,点击所有设置,点击更新系统-恢复,重置此电脑点开始。02选择仅保留我的文件,删除应用和设置,提示窗口会显示出将被删除的应用,点击下一步...
- 最强视频播放器(2020视频播放器排行榜前十名)
-
应该是MXPlayer。他是一款安卓版上十分强悍的视频播放器,他以解码性能强、兼容性高而闻名,并且,对视频字幕的支持更是堪称一绝,支持在线匹配,对特效字幕的支持也是非常的高的。作为一款优质的手机视频播...
- 三星固态驱动官网(三星固态官方软件)
-
三星手机序列号查询官网是http://www.samsung110.com/。手机序列号(S/N号)查询方法:设置-关于手机-状态-序列号(序号)。或通过以下方式查询:通过机器包装盒上的标贴查询用...
- 雨林木风u盘装机教程(雨林木风u盘装系统,步骤)
-
电脑系统安装步骤:1、用【u启动u盘启动盘制作工具】制作u启动盘,重启电脑等待出现开机画面按下启动快捷键,选择u盘启动进入到u启动主菜单,选取“【02】Win8PE装机维护版(新机器)”选项2、进...
- 无法连接到这个网络是怎么回事
-
有可能是网络本身有问题,需要联系运营商解决。也有可能是因为网卡驱动问题,首先鼠标右击开始按钮,然后点击设备管理器,双击网络适配器,最后查看网卡驱动有没有出现黄色的感叹号,如果有的话,右击选择更新驱动程...
- 刷机精灵怎么解除锁屏密码(刷机精灵怎么解除锁屏密码设置)
-
刷机精灵解锁手机锁屏密码方法:下载好刷机精灵。打开链接手机,之后在刷机精灵页面里能看到“实用工具”的选项。解除手机解锁图案要获取root权限,若没有获取的可以在这里点击获取root权限的选项。获取了...
- 联想云服务官网(联想云服务官网查找手机)
-
华为手机也是可以下载云服务软件安装然后使用联想账号登陆云服务的。部分云服务功能将无法使用。登录联想云服务方法:点开云服务软件,选择立即使用,即出现:手机号码登入,邮箱登入,第三方登入;手机号码登入,邮...
- 宏基笔记本系统重装快捷键(宏基笔记本重装系统步骤)
-
如果用系统u盘、光盘安装:1、需要在Bios中设置从u盘或光盘启动。2、启动电脑,dcer一般默认按Del键(有些型号F2、F12)进入Bios设置界面。F2键。宏碁笔记本重装系统按F2键,进入BIO...
- windows10官网打不开(win10系统官网打不开)
-
你可以通过以下步骤在Windows10官网上更新操作系统:1.打开windows官网,进入“下载和工具”页面。2.单击“立即下载工具”按钮,将下载“Windows10更新助手”。3.运行“...
- win7无线网卡插上没反应(win7无线网卡插上没反应怎么回事)
-
1、如果是路由器的问题,如果原来可以用,暂时不能用了,在有就是恢复出厂设置,从新设置就可以用了(这是在物理连接正确的前提下)。2、如果是宽带本身的问题,首先直接联接宽带网线测试,如果是宽带的问题,联系...
- 下载爱奇艺安装(下载爱奇艺安装包)
-
如果你的电脑无法安装爱奇艺,可能有以下原因,第一种原因可能是你的电脑系统版本太低,升级你的电脑操作系统,可以促进爱奇艺的下载,第二种情况是你下载的爱奇艺可能捆绑一些病毒软件,系统的杀毒软件识别有霸王软...
- 5000元左右的电脑配置单(5000左右的电脑配置推荐2021)
-
五千元至六千元价位电脑主机,如果组装机,可以配置配置很高的档次,电脑主机主板可以配置不低于十二代产品,可以设四个内存条插槽,相应的内存可以配置128GB内存条2至四根,电脑处理器也同样不低于十二代产品...
-
- 快速关机(快速关机按什么键)
-
1、我们直接长按手机右侧的电源键,大概5秒的时间,这时候手机页面会直接显示是否关机,选择关机就可以直接关机了。2、找到手机一侧的音量“+”键,再找到电源按键,之后只需同时按住音量“+”键和电源按钮,直到手机屏幕关闭即可强制关机。3、点击【设...
-
2025-12-25 08:05 liuian
- 云电脑免登录破解版(“云电脑破解版”)
-
虎牙YOWA云游戏平台便是一款完全免费的产品,只要玩家在自己的账号上购买过相关的产品即可通过云游戏平台直接登陆。但云游戏平台终归只是改变玩家的游戏方式,用户最终还是要回归于游戏中,如果难以保证游戏体验...
- 联想家庭版win7(联想家庭版笔记本电脑)
-
1、开机到欢迎界面时,按Ctrl+Alt+Delete,跳出帐号窗口,输入用户名:administrator,回车。2、如果这个帐号也有密码采用开机启动时按F8选“带命令行的安全模式”。3、选“Ad...
- 一周热门
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
