百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

pandas知识课堂:apply和agg函数,如何传递参数?

liuian 2025-01-13 15:32 28 浏览

在数据处理过程中,我们在使用apply和agg函数的时候,一般都是直接使用自定义函数的名称,即默认带入自定义函数中的只有1个隐式参数(每个分组)。比如下面的例子:

df = pd.read_excel('d:/fqb/2/tmp.xlsx')
g = df.groupby(['name','year'])

def fm(sr):
    return sr.unique()

res = g.agg({'rev':sum, 'bj':fm})
print(res.reset_index())
 name  year  rev                  bj
0   大狗  2020    3  [2020dg1, 2020dg2]
1   大狗  2021    3            [2021dg]
2   大狗  2022    9            [2022dg]
3   李四  2019   21              [lisi]
4   李四  2021   19              [lisi]

我们在agg()中的字典里,对bj列使用自定义函数fm时,直接用的是fm的名称,在定义自定义函数时,即def fm(sr),我们加入了隐式的参数sr,这里sr是每个分组(pd.Series)。

但是,我们想在自定义函数fm中传递参数,应该如何使用呢?

一、agg中传递参数

方法1:使用lambda

df = pd.read_excel('d:/fqb/2/tmp.xlsx')
g = df.groupby(['name','year'])

def fm(sr,tmp):
    res = sr.unique()
    res = [tmp+s for s in res]
    return '、'.join(res)

res = g.agg({'rev':sum, 'bj':lambda sr:fm(sr,'BJ_')})
print(res.reset_index())
  name  year  rev                     bj
0   大狗  2020    3  BJ_2020dg1、BJ_2020dg2
1   大狗  2021    3              BJ_2021dg
2   大狗  2022    9              BJ_2022dg
3   李四  2019   21                BJ_lisi
4   李四  2021   19                BJ_lisi

注意,agg()中的字典键值对'bj':lambda sr:fm(sr,'BJ_'),直接使用自定义函数是'bj':fm,定义def fm(sr);而这里使用的'bj': lambda sr: fm(sr,'BJ_'),定义def fm(sr,tmp)

这里传递了参数'BJ_',将这个字符串带入到自定义函数fm中,将每个分组中的元素前面加上这个字符串。同理,我们可以传递2个参数 'bj': lambda sr: fm(sr,'BJ_', 4),定义def fm(sr,tmp, num)。参数'BJ_'是字符串,参数4是数值,定义def fm()中有3个参数。

方法2:使用partial绑定自定义函数和传递的参数

from functools import partial
df = pd.read_excel('d:/fqb/2/tmp.xlsx')
g = df.groupby(['name','year'])

def fm(sr,tmp, num):
    res = sr.unique()
    res = [tmp + str(num) + '_' +s for s in res]
    return '、'.join(res)

new_fm = partial(fm, tmp='BJ_', num = 4)

res = g.agg({'rev':sum, 'bj':new_fm})
print(res.reset_index())
  name  year  rev                         bj
0   大狗  2020    3  BJ_4_2020dg1、BJ_4_2020dg2
1   大狗  2021    3                BJ_4_2021dg
2   大狗  2022    9                BJ_4_2022dg
3   李四  2019   21                  BJ_4_lisi
4   李四  2021   19                  BJ_4_lisi

这里使用partial函数将函数fm和2个传递的参数进行绑定,然后将新函数new_fm,作为agg中的聚合函数来使用。

二、apply中传递参数

df = pd.read_excel('d:/fqb/2/tmp.xlsx')
g = df.groupby(['name','year'])

def fm(dj):
    res = dj.shape[0]
    return res

res = g.apply(fm)
print(res.reset_index())
  name  year  0
0   大狗  2020  2
1   大狗  2021  1
2   大狗  2022  2
3   李四  2019  3
4   李四  2021  2

使用apply得到按name和year分组的每组(DataFrame类型)的行数。结果只保留了2个分组列和fm返回的结果组成的1列。

df = pd.read_excel('d:/fqb/2/tmp.xlsx')

def fm(ve,num):
    return ve + num

res = df['rev'].apply(fm, args=(1.2,))
print(res)

将df的rev列的每个元素都加上1.2。

df = pd.read_excel('d:/fqb/2/tmp.xlsx')

def fm(ve,num, rate):
    return (ve + num)*(1+rate)

res = df['rev'].apply(fm, args=(1,0.1))
print(res)

将df的rev列的每个元素都加上1后再增加10%(0.1)。

df = pd.read_excel('d:/fqb/2/tmp.xlsx')

def fm(row,num, rate):
    res = row['sex'] + '_' + row['bj']
    return res + str(num) + '_' + str(rate)

res = df.apply(fm, args=(1,0.1), axis=1)
print(res)

使用整个df,而不是df的某个列。这里row就是df的一行数据,axis=1是按行读取,row可以直接按列名称提取该行的值。

相关推荐

Python生态下的微服务框架FastAPI

FastAPI是什么FastAPI是一个用于构建API的web框架,使用Python并基于标准的Python类型提示。与flask相比有什么优势高性能:得益于uvloop,可达到与...

SpringBoot:如何解决跨域问题,详细方案和示例代码

跨域问题在前端开发中经常会遇到,特别是在使用SpringBoot框架进行后端开发时。解决跨域问题的方法有很多,我将为你提供一种详细的方案,包含示例代码。首先,让我们了解一下什么是跨域问题。跨域是指在...

使用Nginx轻松搞定跨域问题_使用nginx轻松搞定跨域问题的方法

跨域问题(Cross-OriginResourceSharing,简称CORS)是由浏览器的同源策略引起的。同源策略指的是浏览器限制来自不同源(协议、域名、端口)的JavaScript对资源的...

spring boot过滤器与拦截器的区别

有小伙伴使用springboot开发多年,但是对于过滤器和拦截器的主要区别依然傻傻分不清。今天就对这两个概念做一个全面的盘点。定义与作用范围过滤器(Filter):过滤器是一种可以动态地拦截、处理和...

nginx如何配置跨域_nginx配置跨域访问

要在Nginx中配置跨域,可以使用add_header指令来添加Access-Control-Allow-*头信息,如下所示:location/api{if($reques...

解决跨域问题的8种方法,含网关、Nginx和SpringBoot~

跨域问题是浏览器为了保护用户的信息安全,实施了同源策略(Same-OriginPolicy),即只允许页面请求同源(相同协议、域名和端口)的资源,当JavaScript发起的请求跨越了同源策略,...

图解CORS_图解数学

CORS的全称是Cross-originresourcesharing,中文名称是跨域资源共享,是一种让受限资源能够被其他域名的页面访问的一种机制。下图描述了CORS机制。一、源(Orig...

CORS 幕后实际工作原理_cors的工作原理

跨域资源共享(CORS)是Web浏览器实施的一项重要安全机制,用于保护用户免受潜在恶意脚本的攻击。然而,这也是开发人员(尤其是Web开发新手)感到沮丧的常见原因。小编在此将向大家解释它存在...

群晖无法拉取Docker镜像?最稳定的方法:搭建自己的加速服务!

因为未知的原因,国内的各大DockerHub镜像服务器无法使用,导致在使用群晖时无法拉取镜像构建容器。网上大部分的镜像加速服务都是通过Cloudflare(CF)搭建的,为什么都选它呢?因为...

Sa-Token v1.42.0 发布,新增 API Key、TOTP 验证码等能力

Sa-Token是一款免费、开源的轻量级Java权限认证框架,主要解决:登录认证、权限认证、单点登录、OAuth2.0、微服务网关鉴权等一系列权限相关问题。目前最新版本v1.42.0已...

NGINX常规CORS错误解决方案_nginx配置cors

CORS错误CORS(Cross-OriginResourceSharing,跨源资源共享)是一种机制,它使用额外的HTTP头部来告诉浏览器允许一个网页运行的脚本从不同于它自身来源的服务器上请求资...

Spring Boot跨域问题终极解决方案:3种方案彻底告别CORS错误

引言"接口调不通?前端同事又双叒叕在吼跨域了!""明明Postman能通,浏览器却报OPTIONS403?""生产环境跨域配置突然失效,凌晨3点被夺命连环Ca...

SpringBoot 项目处理跨域的四种技巧

上周帮一家公司优化代码时,顺手把跨域的问题解决了,这篇文章,我们聊聊SpringBoot项目处理跨域的四种技巧。1什么是跨域我们先看下一个典型的网站的地址:同源是指:协议、域名、端口号完全相...

Spring Cloud入门看这一篇就够了_spring cloud使用教程

SpringCloud微服务架构演进单体架构垂直拆分分布式SOA面向服务架构微服务架构服务调用方式:RPC,早期的webservice,现在热门的dubbo,都是RPC的典型代表HTTP,HttpCl...

前端程序员:如何用javascript开发一款在线IDE?

前言3年前在AWSre:Invent大会上AWS宣布推出Cloud9,用于在云端编写、运行和调试代码,它可以直接运行在浏览器中,也就是传说中的WebIDE。3年后的今天随着国内云计算的发...