百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python Pandas 库:解锁 combine、update 和compare函数的强大功能

liuian 2025-05-14 14:50 40 浏览

在 Python 的数据处理领域,Pandas库提供了丰富且实用的函数,帮助我们高效地处理和分析数据。今天,咱们就来深入探索 Pandas 库中四个功能独特的函数:combine、combine_first、update和compare。掌握了它们,我们在数据处理的道路上将会如虎添翼!

一、combine 函数:灵活的数据合并与计算

combine函数使用func将一个 DataFrame 与另一个DataFrame 进行合并,默认按列进行合并,新生成的 DataFrame 的行索引和列索引将是这两个DataFrame 索引的并集,最后返回生成的新的DataFrame对象。

函数原型

DataFrame.combine(other, func, overwrite=True, fill_value=None)

2. 参数详解

  • other:这是要与调用者(即当前 DataFrame 或 Series)进行合并计算的另一个 DataFrame。
  • func:这是一个关键参数,它是一个自定义函数,用于指定如何对两个对应元素进行计算。这个函数接收两个参数,分别是调用者和other中的对应元素,返回值则是合并后的结果。
  • fill_value:指定在其中一个对象中存在缺失值时使用这个填充值,然后再做合并处理。
  • overwrite:如果 overwrite=True(默认值),则在组合操作中,如果新数据(来自 other 对象)中有值,将覆盖原始数据中的对应值。如果 overwrite=False,则只有在原始数据中为缺失值(NaN 或 None)的位置,才会用新数据中的值进行填充,不会覆盖原始数据中已有的非缺失值。

3. 示例

1)定义两个没有空值的DataFrame定义一个lamada函数,然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果:

  A B
0 0 4
1 0 4
   A B
0 1 3
1 1 3
#合并的df3显示如下
   A B
0 0 3
1 0 3

2)定义有空值的DataFrame,不传fill_value参数然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果:

    A B
0 0 NaN
1 0 4.0
   A B
0 1 3
1 1 3
#合并的df3显示如下,B列直接返回df1中有空值的列
    A B
0 0 NaN
1 0 4.0

3)定义有空值的DataFrame,传fill_value参数然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
#指定fill_value=-1
df3 = df1.combine(df2, take_smaller,fill_value=-1)
print(df3)

输出结果:

   A B
0 0 NaN
1 0 4.0
   A B
0 1 3
1 1 3
#合并的df3显示如下,df1中的B列填充值之后带入函数做计算
    A  B
0 0 -1.0
1 0 4.0

4)定义两个没有空值的DataFrame,索引和列名不一致,对比overwrite为True和False时的输出结果

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'B': [1, 1], 'C': [3, 3]}, index=[1, 2]
)
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果:

   A B
0 0 4
1 0 4
   B C
1 3 -10
2 3 1
#合并的df3显示如下
     A     B       C
0 NaN NaN NaN
1 NaN 3.0 -10.0
2 NaN 3.0 1.0

df3的A列因为df2无A列,填充的都为NAN值,索引为0的B列和C列填充的为NAN值

当overwrite=False时:

df3 = df1.combine(df2, take_smaller,overwrite=False)
print(df3)

输出结果为:df3的A列索引为0和1的位置并没有填充为df2的NAN值,而是填充的df1的值。

      A   B      C
0 0.0 NaN NaN
1 0.0 3.0 -10.0
2 NaN 3.0 1.0

二、combine_first 函数:填充缺失值的利器

combine_first函数主要用于将两个 DataFrame 进行合并,用一个对象中的非缺失值去填充另一个对象中的缺失值,并返回这个新的DataFrame对象。

函数原型

参数other为另一个被合并的DataFrame对象。

使用方式类似:df.combine_first(other)

示例

设置两个 DataFrame,一个DataFrame有缺失值,进行合并

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)
# 使用 combine_first 函数
result = df1.combine_first(df2)
print(result)

输出结果:df1中的NAN值被df2中的值填充

      A B
0 1.0 4.0
1 NaN NaN
2 3.0 6.0
    A B
0 7 10
1 8 11
2 9 12
#合并后的结果
     A   B
0 1.0 4.0
1 8.0 11.0
2 3.0 6.0

三、update 函数:选择性的数据更新

update函数用于根据条件对 DataFrame 中的数据进行更新,它会用另一个 DataFrame 中的数据替换调用者中匹配索引和列的数据,不会返回新的DataFrame对象。

1. 函数原型

DataFrame.update(other, join='left', overwrite=True, filter_func=None,errors='ignore')

2. 参数详解

  • other用来更新当前 DataFrame 的另一个 DataFrame ,它的索引和列需要与调用者有一定的匹配关系。
  • join:指定连接方式,'left'(默认值)表示左连接,只更新调用者中存在的索引和列的数据;不支持其他连接方式。
  • overwrite:布尔值,默认为True,表示覆盖匹配到的原有的数据。如果为False,则只更新当前DataFrame的缺失值。
  • filter_func:一个可选的函数,用于过滤要更新的数据。它接收一个 DataFrame 作为参数,返回一个布尔类型的 DataFrame,只有对应为True的位置的数据才会被更新。
  • errors:指定如何处理错误。'ignore' (默认值)表示忽略错误并继续执行,'raise' 表示遇到错误时抛出异常。

3. 示例

1)有两个DataFrame,df1有缺失值,配置参数overwrite=False,只更新df1中的缺失值

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]}, index=[1, 2, 3])
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)

# 使用 update 函数更新df1
df1.update(df2,overwrite=False)
print(df1)

输出结果:因为两个DataFrame索引和列数都不完全一致,只匹配到索引为1和2的A列和B列。

因此只有第2行的A列和B列原先为NAN值,被df2中的值更新,其他数据都不更新

      A B C
1 1.0 4.0 5
2 NaN NaN 8
3 3.0 6.0 9
    A B
0 7 10
1 8 11
2 9 12
#更新后的值
     A   B    C
1 1.0 4.0   5
2 9.0 12.0 8
3 3.0  6.0  9

如果overwrite=True,则输出结果如下:索引为1和2的A列和B列都被更新

#更新后的值
     A   B   C
1 8.0 11.0 5
2 9.0 12.0 8
3 3.0  6.0  9 

2)有两个DataFrame,df1有缺失值,添加一个lambda函数只更新偶数值

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)

# 使用 update 函数更新df1
df1.update(df2, filter_func=lambda x:x%2==0)
print(df1)

输出结果:更新了索引为0和2的B列中的偶数,替换为了df2中的值。

     A B C
0 1.0 4 5
1 NaN 3 8
2 3.0 6 9
   A B
0 7 10
1 8 11
2 9 12
#更新后的值
      A B C
0 1.0 10 5
1 NaN 3 8
2 3.0 12 9

四、compare 函数:数据差异的 “放大镜”

在实际的数据工作中,compare函数的作用就是直观地展示两个DataFrame之间的不同之处,将数据差异清晰地呈现出来,就像给数据差异加上了一个 “放大镜”,让我们一眼就能捕捉到关键信息。

函数原型

DataFrame.compare(other,align_axis=1,keep_shape=False,keep_equal=False,result_names=("self","other")

2. 参数详解

  • other:代表要与调用者(当前DataFrame)进行对比的另一个DataFrame,两个DataFrame需要有相同的索引和行列数,不一致会报错。
  • align_axis:指定对齐轴,默认值为1(按列比较)。当设置为0时,则按行比较。
  • keep_shape:布尔值,默认值为False。设置为True,则会保留原有的形状,即使某些列或行在对比中没有差异也会显示,只是填充为缺失值。
  • keep_equal:布尔值,默认值为False。设置为True,会保留两个DataFrame中相等的元素,在结果中用NaN来表示相等的部分。
  • result_names:表示对比差异显示的两个DataFrame的名称,默认显示为self和other。

示例

创建两个DataFrame,第一行的数据是相同的。

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 4, 3], 'B': [4, 7, 8]})
print(df1)
print(df2)

输出结果:

  A B
0 1 4
1 2 5
2 3 6

  A B
0 1 4
1 4 7
2 3 8

示例 1:使用 compare 函数,设置 result_names=('df1','df2')

diff_df = df1.compare(df2,result_names=('df1','df2'))
print(diff_df)

输出结果:

          A          B
   df1 df2    df1 df2
1 2.0   4.0    5.0 7.0
2 NaN NaN 6.0 8.0


示例 2:使用 compare 函数,设置align_axis=0按行比较

diff_df_axis = df1.compare(df2,align_axis=0)
print(diff_df_axis)

输出结果:

               A    B
1 self     2.0 5.0
  other   4.0 7.0
2 self    NaN 6.0
   other NaN 8.0


示例 3:使用 compare 函数,设置 keep_shape=True

diff_df_keep_shape = df1.compare(df2, keep_shape=True)
print(diff_df_keep_shape)

输出结果:


        A                B
   self other self other
0 NaN NaN NaN NaN
1 2.0     4.0    5.0   7.0
2 NaN NaN  6.0   8.0


示例 4:使用 compare 函数,设置 keep_equal=True

diff_df_keep_equal = df1.compare(df2, keep_equal=True)
print(diff_df_keep_equal)


输出结果:

       A                B
   self other self other
1   2     4         5     7
2   3     3         6     8

共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”

-----指水滴不断地滴,可以滴穿石头;

-----比喻坚持不懈,集细微的力量也能成就难能的功劳。

----感谢读者的阅读和学习,谢谢大家。

相关推荐

MySQL慢查询优化:从explain到索引,DBA手把手教你提升10倍性能

数据库性能是应用系统的生命线,而慢查询就像隐藏在系统中的定时炸弹。某电商平台曾因一条未优化的SQL导致订单系统响应时间从200ms飙升至8秒,最终引发用户投诉和订单流失。今天我们就来系统学习MySQL...

一文读懂SQL五大操作类别(DDL/DML/DQL/DCL/TCL)的基础语法

在SQL中,DDL、DML、DQL、DCL、TCL是按操作类型划分的五大核心语言类别,缩写及简介如下:DDL(DataDefinitionLanguage,数据定义语言):用于定义和管理数据库结构...

闲来无事,学学Mysql增、删,改,查

Mysql增、删,改,查1“增”——添加数据1.1为表中所有字段添加数据1.1.1INSERT语句中指定所有字段名语法:INSERTINTO表名(字段名1,字段名2,…)VALUES(值1...

数据库:MySQL 高性能优化规范建议

数据库命令规范所有数据库对象名称必须使用小写字母并用下划线分割所有数据库对象名称禁止使用MySQL保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来)数据库对象的命名要能做到见名识意,...

下载工具合集_下载工具手机版

迅雷,在国内的下载地位还是很难撼动的,所需要用到的地方还挺多。缺点就是不开会员,软件会限速。EagleGet,全能下载管理器,支持HTTP(S)FTPMMSRTSP协议,也可以使用浏览器扩展检测...

mediamtx v1.15.2 更新详解:功能优化与问题修复

mediamtxv1.15.2已于2025年10月14日发布,本次更新在功能、性能优化以及问题修复方面带来了多项改进,同时也更新了部分依赖库并提升了安全性。以下为本次更新的详细内容:...

声学成像仪:泄露监测 “雷达” 方案开启精准防控

声学成像仪背景将声像图与阵列上配装的摄像实所拍的视频图像以透明的方式叠合在一起,就形成了可直观分析被测物产生状态。这种利用声学、电子学和信息处理等技术,变换成人眼可见的图像的技术可以帮助人们直观地认识...

最稳存储方案:两种方法将摄像头接入威联通Qu405,录像不再丢失

今年我家至少被4位邻居敲门,就是为了查监控!!!原因是小区内部监控很早就停止维护了,半夜老有小黄毛掰车门偷东西,还有闲的没事划车的,车主损失不小,我家很早就配备监控了,人来亮灯有一定威慑力,不过监控设...

离岗检测算法_离岗检查内容

一、研发背景如今社会许多岗位是严禁随意脱离岗位的,如塔台、保安室、监狱狱警监控室等等,因为此类行为可能会引起重大事故,而此类岗位监督管理又有一定困难,因此促生了智能视频识别系统的出现。二、产品概述及工...

消防安全通道占用检测报警系统_消防安全通道占用检测报警系统的作用

一、产品概述科缔欧消防安全通道占用检测报警系统,是创新行业智能监督管理方式、完善监管部门动态监控及预警预报体系的信息化手段,是实现平台远程监控由“人为监控”向“智能监控”转变的必要手段。产品致力于设...

外出住酒店、民宿如何使用手机检测隐藏的监控摄像头

最近,一个家庭在他们的民宿收到了一个大惊喜:客厅里有一个伪装成烟雾探测器的隐藏摄像头,监视着他们的一举一动。隐藏摄像头的存在如果您住在酒店或民宿,隐藏摄像头不应再是您的担忧。对于民宿,房东应报告所有可...

基于Tilera众核平台的流媒体流量发生系统的设计

曾帅,高宗彬,赵国锋(重庆邮电大学通信与信息工程学院,重庆400065)摘要:设计了一种基于Tilera众核平台高强度的流媒体流量发生系统架构,其主要包括:系统界面管理模块、服务承载模块和流媒体...

使用ffmpeg将rtsp流转流实现h5端播放

1.主要实现rtsp转tcp协议视频流播放ffmpeg下载安装(公认业界视频处理大佬)a、官网地址:www.ffmpeg.org/b、gitHub:github.com/FFmpeg/FFmp…c、推...

将摄像头视频流从Rtsp协议转为websocket协议

写在前面很多通过摄像头拿到的视频流格式都是Rtsp协议的,比如:海康威视摄像头。在现代的浏览器中,已经不支持直接播放Rtsp视频流,而且,海康威视提供的本身的webSdk3.3.0视频插件有很多...

华芸科技推出安全监控中心2.1 Beta测试版

全球独家支持hdmi在线实时监看摄像机画面,具单一、循环或同时监看四频道视频影像,可透过华芸专用红外线遥控器、airemote或是键盘鼠标进行操作,提供摄像机频道增购服务,满足用户弹性扩增频道需...