Python Pandas 库:解锁 combine、update 和compare函数的强大功能
liuian 2025-05-14 14:50 32 浏览
在 Python 的数据处理领域,Pandas库提供了丰富且实用的函数,帮助我们高效地处理和分析数据。今天,咱们就来深入探索 Pandas 库中四个功能独特的函数:combine、combine_first、update和compare。掌握了它们,我们在数据处理的道路上将会如虎添翼!
一、combine 函数:灵活的数据合并与计算
combine函数使用func将一个 DataFrame 与另一个DataFrame 进行合并,默认按列进行合并,新生成的 DataFrame 的行索引和列索引将是这两个DataFrame 索引的并集,最后返回生成的新的DataFrame对象。
函数原型
DataFrame.combine(other, func, overwrite=True, fill_value=None) |
2. 参数详解
- other:这是要与调用者(即当前 DataFrame 或 Series)进行合并计算的另一个 DataFrame。
- func:这是一个关键参数,它是一个自定义函数,用于指定如何对两个对应元素进行计算。这个函数接收两个参数,分别是调用者和other中的对应元素,返回值则是合并后的结果。
- fill_value:指定在其中一个对象中存在缺失值时使用这个填充值,然后再做合并处理。
- overwrite:如果 overwrite=True(默认值),则在组合操作中,如果新数据(来自 other 对象)中有值,将覆盖原始数据中的对应值。如果 overwrite=False,则只有在原始数据中为缺失值(NaN 或 None)的位置,才会用新数据中的值进行填充,不会覆盖原始数据中已有的非缺失值。
3. 示例
1)定义两个没有空值的DataFrame定义一个lamada函数,然后合并
import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)
输出结果:
A B
0 0 4
1 0 4
A B
0 1 3
1 1 3
#合并的df3显示如下
A B
0 0 3
1 0 3
2)定义有空值的DataFrame,不传fill_value参数然后合并
import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)
输出结果:
A B
0 0 NaN
1 0 4.0
A B
0 1 3
1 1 3
#合并的df3显示如下,B列直接返回df1中有空值的列
A B
0 0 NaN
1 0 4.0
3)定义有空值的DataFrame,传fill_value参数然后合并
import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
#指定fill_value=-1
df3 = df1.combine(df2, take_smaller,fill_value=-1)
print(df3)
输出结果:
A B
0 0 NaN
1 0 4.0
A B
0 1 3
1 1 3
#合并的df3显示如下,df1中的B列填充值之后带入函数做计算
A B
0 0 -1.0
1 0 4.0
4)定义两个没有空值的DataFrame,索引和列名不一致,对比overwrite为True和False时的输出结果
import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'B': [1, 1], 'C': [3, 3]}, index=[1, 2]
)
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)
输出结果:
A B
0 0 4
1 0 4
B C
1 3 -10
2 3 1
#合并的df3显示如下
A B C
0 NaN NaN NaN
1 NaN 3.0 -10.0
2 NaN 3.0 1.0
df3的A列因为df2无A列,填充的都为NAN值,索引为0的B列和C列填充的为NAN值
当overwrite=False时:
df3 = df1.combine(df2, take_smaller,overwrite=False)
print(df3)
输出结果为:df3的A列索引为0和1的位置并没有填充为df2的NAN值,而是填充的df1的值。
A B C
0 0.0 NaN NaN
1 0.0 3.0 -10.0
2 NaN 3.0 1.0
二、combine_first 函数:填充缺失值的利器
combine_first函数主要用于将两个 DataFrame 进行合并,用一个对象中的非缺失值去填充另一个对象中的缺失值,并返回这个新的DataFrame对象。
函数原型
参数other为另一个被合并的DataFrame对象。
使用方式类似:df.combine_first(other)
示例
设置两个 DataFrame,一个DataFrame有缺失值,进行合并
import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)
# 使用 combine_first 函数
result = df1.combine_first(df2)
print(result)
输出结果:df1中的NAN值被df2中的值填充
A B
0 1.0 4.0
1 NaN NaN
2 3.0 6.0
A B
0 7 10
1 8 11
2 9 12
#合并后的结果
A B
0 1.0 4.0
1 8.0 11.0
2 3.0 6.0
三、update 函数:选择性的数据更新
update函数用于根据条件对 DataFrame 中的数据进行更新,它会用另一个 DataFrame 中的数据替换调用者中匹配索引和列的数据,不会返回新的DataFrame对象。
1. 函数原型
DataFrame.update(other, join='left', overwrite=True, filter_func=None,errors='ignore') |
2. 参数详解
- other:用来更新当前 DataFrame 的另一个 DataFrame ,它的索引和列需要与调用者有一定的匹配关系。
- join:指定连接方式,'left'(默认值)表示左连接,只更新调用者中存在的索引和列的数据;不支持其他连接方式。
- overwrite:布尔值,默认为True,表示覆盖匹配到的原有的数据。如果为False,则只更新当前DataFrame的缺失值。
- filter_func:一个可选的函数,用于过滤要更新的数据。它接收一个 DataFrame 作为参数,返回一个布尔类型的 DataFrame,只有对应为True的位置的数据才会被更新。
- errors:指定如何处理错误。'ignore' (默认值)表示忽略错误并继续执行,'raise' 表示遇到错误时抛出异常。
3. 示例
1)有两个DataFrame,df1有缺失值,配置参数overwrite=False,只更新df1中的缺失值
import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]}, index=[1, 2, 3])
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)
# 使用 update 函数更新df1
df1.update(df2,overwrite=False)
print(df1)
输出结果:因为两个DataFrame索引和列数都不完全一致,只匹配到索引为1和2的A列和B列。
因此只有第2行的A列和B列原先为NAN值,被df2中的值更新,其他数据都不更新
A B C
1 1.0 4.0 5
2 NaN NaN 8
3 3.0 6.0 9
A B
0 7 10
1 8 11
2 9 12
#更新后的值
A B C
1 1.0 4.0 5
2 9.0 12.0 8
3 3.0 6.0 9
如果overwrite=True,则输出结果如下:索引为1和2的A列和B列都被更新
#更新后的值
A B C
1 8.0 11.0 5
2 9.0 12.0 8
3 3.0 6.0 9
2)有两个DataFrame,df1有缺失值,添加一个lambda函数只更新偶数值
import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)
# 使用 update 函数更新df1
df1.update(df2, filter_func=lambda x:x%2==0)
print(df1)
输出结果:更新了索引为0和2的B列中的偶数,替换为了df2中的值。
A B C
0 1.0 4 5
1 NaN 3 8
2 3.0 6 9
A B
0 7 10
1 8 11
2 9 12
#更新后的值
A B C
0 1.0 10 5
1 NaN 3 8
2 3.0 12 9
四、compare 函数:数据差异的 “放大镜”
在实际的数据工作中,compare函数的作用就是直观地展示两个DataFrame之间的不同之处,将数据差异清晰地呈现出来,就像给数据差异加上了一个 “放大镜”,让我们一眼就能捕捉到关键信息。
函数原型
DataFrame.compare(other,align_axis=1,keep_shape=False,keep_equal=False,result_names=("self","other")
2. 参数详解
- other:代表要与调用者(当前DataFrame)进行对比的另一个DataFrame,两个DataFrame需要有相同的索引和行列数,不一致会报错。
- align_axis:指定对齐轴,默认值为1(按列比较)。当设置为0时,则按行比较。
- keep_shape:布尔值,默认值为False。设置为True,则会保留原有的形状,即使某些列或行在对比中没有差异也会显示,只是填充为缺失值。
- keep_equal:布尔值,默认值为False。设置为True,会保留两个DataFrame中相等的元素,在结果中用NaN来表示相等的部分。
- result_names:表示对比差异显示的两个DataFrame的名称,默认显示为self和other。
示例
创建两个DataFrame,第一行的数据是相同的。
import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 4, 3], 'B': [4, 7, 8]})
print(df1)
print(df2)
输出结果:
A B
0 1 4
1 2 5
2 3 6
A B
0 1 4
1 4 7
2 3 8
示例 1:使用 compare 函数,设置 result_names=('df1','df2')
diff_df = df1.compare(df2,result_names=('df1','df2'))
print(diff_df)
输出结果:
A B
df1 df2 df1 df2
1 2.0 4.0 5.0 7.0
2 NaN NaN 6.0 8.0
示例 2:使用 compare 函数,设置align_axis=0按行比较
diff_df_axis = df1.compare(df2,align_axis=0)
print(diff_df_axis)
输出结果:
A B
1 self 2.0 5.0
other 4.0 7.0
2 self NaN 6.0
other NaN 8.0
示例 3:使用 compare 函数,设置 keep_shape=True
diff_df_keep_shape = df1.compare(df2, keep_shape=True)
print(diff_df_keep_shape)
输出结果:
A B
self other self other
0 NaN NaN NaN NaN
1 2.0 4.0 5.0 7.0
2 NaN NaN 6.0 8.0
示例 4:使用 compare 函数,设置 keep_equal=True
diff_df_keep_equal = df1.compare(df2, keep_equal=True)
print(diff_df_keep_equal)
输出结果:
A B
self other self other
1 2 4 5 7
2 3 3 6 8
共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”
-----指水滴不断地滴,可以滴穿石头;
-----比喻坚持不懈,集细微的力量也能成就难能的功劳。
----感谢读者的阅读和学习,谢谢大家。
相关推荐
- Python 中 必须掌握的 20 个核心函数——items()函数
-
items()是Python字典对象的方法,用于返回字典中所有键值对的视图对象。它提供了对字典完整内容的高效访问和操作。一、items()的基本用法1.1方法签名dict.items()返回:字典键...
- Python字典:键值对的艺术_python字典的用法
-
字典(dict)是Python的核心数据结构之一,与列表同属可变序列,但采用完全不同的存储方式:定义方式:使用花括号{}(列表使用方括号[])存储结构:以键值对(key-valuepair)...
- python字典中如何添加键值对_python怎么往字典里添加键
-
添加键值对首先定义一个空字典1>>>dic={}直接对字典中不存在的key进行赋值来添加123>>>dic['name']='zhangsan'>>...
- Spring Boot @ConfigurationProperties 详解与 Nacos 配置中心集成
-
本文将深入探讨SpringBoot中@ConfigurationProperties的详细用法,包括其语法细节、类型转换、复合类型处理、数据校验,以及与Nacos配置中心的集成方式。通过...
- Dubbo概述_dubbo工作原理和机制
-
什么是RPCRPC是RemoteProcedureCall的缩写翻译为:远程过程调用目标是为了实现两台(多台)计算机\服务器,互相调用方法\通信的解决方案RPC的概念主要定义了两部分内容序列化协...
- 再见 Feign!推荐一款微服务间调用神器,跟 SpringCloud 绝配
-
在微服务项目中,如果我们想实现服务间调用,一般会选择Feign。之前介绍过一款HTTP客户端工具Retrofit,配合SpringBoot非常好用!其实Retrofit不仅支持普通的HTTP调用,还能...
- SpringGateway 网关_spring 网关的作用
-
奈非框架简介早期(2020年前)奈非提供的微服务组件和框架受到了很多开发者的欢迎这些框架和SpringCloudAlibaba的对应关系我们要知道Nacos对应Eureka都是注册中心Dubbo...
- Sentinel 限流详解-Sentinel与OpenFeign服务熔断那些事
-
SentinelResource我们使用到过这个注解,我们需要了解的是其中两个属性:value:资源名称,必填且唯一。@SentinelResource(value="test/get...
- 超详细MPLS学习指南 手把手带你实现IP与二层网络的无缝融合
-
大家晚上好,我是小老虎,今天的文章有点长,但是都是干货,耐心看下去,不会让你失望的哦!随着ASIC技术的发展,路由查找速度已经不是阻碍网络发展的瓶颈。这使得MPLS在提高转发速度方面不再具备明显的优势...
- Cisco 尝试配置MPLS-V.P.N从开始到放弃
-
本人第一次接触这个协议,所以打算分两篇进行学习和记录,本文枯燥预警,配置命令在下一篇全为定义,其也是算我毕业设计的一个小挑战。新概念重点备注为什么选择该协议IPSecVPN都属于传统VPN传统VP...
- MFC -- 网络通信编程_mfc编程教程
-
要买东西的时候,店家常常说,你要是真心买的,还能给你便宜,你看真心就是不怎么值钱。。。----网易云热评一、创建服务端1、新建一个控制台应用程序,添加源文件server2、添加代码框架#includ...
- 35W快充?2TB存储?iPhone14爆料汇总,不要再漫天吹15了
-
iPhone14都还没发布,关于iPhone15的消息却已经漫天飞,故加紧整理了关于iPhone14目前已爆出的消息。本文将从机型、刘海、屏幕、存储、芯片、拍照、信号、机身材质、充电口、快充、配色、价...
- SpringCloud Alibaba(四) - Nacos 配置中心
-
1、环境搭建1.1依赖<!--nacos注册中心注解@EnableDiscoveryClient--><dependency><groupI...
- Nacos注册中心最全详解(图文全面总结)
-
Nacos注册中心是微服务的核心组件,也是大厂经常考察的内容,下面我就重点来详解Nacos注册中心@mikechen本篇已收于mikechen原创超30万字《阿里架构师进阶专题合集》里面。微服务注册中...
- 网络技术领域端口号备忘录,受益匪浅 !
-
你好,这里是网络技术联盟站,我是瑞哥。网络端口是计算机网络中用于区分不同应用程序和服务的标识符。每个端口号都是一个16位的数字,范围从0到65535。网络端口的主要功能是帮助网络设备(如计算机和服务器...
- 一周热门
-
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
飞牛OS入门安装遇到问题,如何解决?
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
- 最近发表
-
- Python 中 必须掌握的 20 个核心函数——items()函数
- Python字典:键值对的艺术_python字典的用法
- python字典中如何添加键值对_python怎么往字典里添加键
- Spring Boot @ConfigurationProperties 详解与 Nacos 配置中心集成
- Dubbo概述_dubbo工作原理和机制
- 再见 Feign!推荐一款微服务间调用神器,跟 SpringCloud 绝配
- SpringGateway 网关_spring 网关的作用
- Sentinel 限流详解-Sentinel与OpenFeign服务熔断那些事
- 超详细MPLS学习指南 手把手带你实现IP与二层网络的无缝融合
- Cisco 尝试配置MPLS-V.P.N从开始到放弃
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)