Python Pandas 库:解锁 combine、update 和compare函数的强大功能

liuian 2025-05-14 14:50 20 浏览

在 Python 的数据处理领域，Pandas库提供了丰富且实用的函数，帮助我们高效地处理和分析数据。今天，咱们就来深入探索 Pandas 库中四个功能独特的函数：combine、combine_first、update和compare。掌握了它们，我们在数据处理的道路上将会如虎添翼！

一、combine 函数：灵活的数据合并与计算

combine函数使用func将一个 DataFrame 与另一个DataFrame 进行合并，默认按列进行合并，新生成的 DataFrame 的行索引和列索引将是这两个DataFrame 索引的并集，最后返回生成的新的DataFrame对象。

函数原型

DataFrame.combine(other, func, overwrite=True, fill_value=None)

2. 参数详解

other：这是要与调用者（即当前 DataFrame 或 Series）进行合并计算的另一个 DataFrame。
func：这是一个关键参数，它是一个自定义函数，用于指定如何对两个对应元素进行计算。这个函数接收两个参数，分别是调用者和other中的对应元素，返回值则是合并后的结果。
fill_value：指定在其中一个对象中存在缺失值时使用这个填充值，然后再做合并处理。
overwrite：如果 overwrite=True（默认值），则在组合操作中，如果新数据（来自 other 对象）中有值，将覆盖原始数据中的对应值。如果 overwrite=False，则只有在原始数据中为缺失值（NaN 或 None）的位置，才会用新数据中的值进行填充，不会覆盖原始数据中已有的非缺失值。

3. 示例

1）定义两个没有空值的DataFrame定义一个lamada函数，然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果：

  A B
0 0 4
1 0 4
   A B
0 1 3
1 1 3
#合并的df3显示如下
   A B
0 0 3
1 0 3

2）定义有空值的DataFrame，不传fill_value参数然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果：

    A B
0 0 NaN
1 0 4.0
   A B
0 1 3
1 1 3
#合并的df3显示如下，B列直接返回df1中有空值的列
    A B
0 0 NaN
1 0 4.0

3）定义有空值的DataFrame，传fill_value参数然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
#指定fill_value=-1
df3 = df1.combine(df2, take_smaller,fill_value=-1)
print(df3)

输出结果：

   A B
0 0 NaN
1 0 4.0
   A B
0 1 3
1 1 3
#合并的df3显示如下，df1中的B列填充值之后带入函数做计算
    A  B
0 0 -1.0
1 0 4.0

4）定义两个没有空值的DataFrame，索引和列名不一致，对比overwrite为True和False时的输出结果

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'B': [1, 1], 'C': [3, 3]}, index=[1, 2]
)
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果：

   A B
0 0 4
1 0 4
   B C
1 3 -10
2 3 1
#合并的df3显示如下
     A     B       C
0 NaN NaN NaN
1 NaN 3.0 -10.0
2 NaN 3.0 1.0

df3的A列因为df2无A列，填充的都为NAN值，索引为0的B列和C列填充的为NAN值

当overwrite=False时：

df3 = df1.combine(df2, take_smaller,overwrite=False)
print(df3)

输出结果为：df3的A列索引为0和1的位置并没有填充为df2的NAN值，而是填充的df1的值。

      A   B      C
0 0.0 NaN NaN
1 0.0 3.0 -10.0
2 NaN 3.0 1.0

二、combine_first 函数：填充缺失值的利器

combine_first函数主要用于将两个 DataFrame 进行合并，用一个对象中的非缺失值去填充另一个对象中的缺失值，并返回这个新的DataFrame对象。

函数原型

参数other为另一个被合并的DataFrame对象。

使用方式类似：df.combine_first(other)

示例

设置两个 DataFrame，一个DataFrame有缺失值，进行合并

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)
# 使用 combine_first 函数
result = df1.combine_first(df2)
print(result)

输出结果：df1中的NAN值被df2中的值填充

      A B
0 1.0 4.0
1 NaN NaN
2 3.0 6.0
    A B
0 7 10
1 8 11
2 9 12
#合并后的结果
     A   B
0 1.0 4.0
1 8.0 11.0
2 3.0 6.0

三、update 函数：选择性的数据更新

update函数用于根据条件对 DataFrame 中的数据进行更新，它会用另一个 DataFrame 中的数据替换调用者中匹配索引和列的数据，不会返回新的DataFrame对象。

1. 函数原型

DataFrame.update(other, join='left', overwrite=True, filter_func=None,errors='ignore')

2. 参数详解

other：用来更新当前 DataFrame 的另一个 DataFrame ，它的索引和列需要与调用者有一定的匹配关系。
join：指定连接方式，'left'（默认值）表示左连接，只更新调用者中存在的索引和列的数据；不支持其他连接方式。
overwrite：布尔值，默认为True，表示覆盖匹配到的原有的数据。如果为False，则只更新当前DataFrame的缺失值。
filter_func：一个可选的函数，用于过滤要更新的数据。它接收一个 DataFrame 作为参数，返回一个布尔类型的 DataFrame，只有对应为True的位置的数据才会被更新。
errors：指定如何处理错误。'ignore' （默认值）表示忽略错误并继续执行，'raise' 表示遇到错误时抛出异常。

3. 示例

1）有两个DataFrame，df1有缺失值，配置参数overwrite=False，只更新df1中的缺失值

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]}, index=[1, 2, 3])
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)

# 使用 update 函数更新df1
df1.update(df2,overwrite=False)
print(df1)

输出结果：因为两个DataFrame索引和列数都不完全一致，只匹配到索引为1和2的A列和B列。

因此只有第2行的A列和B列原先为NAN值，被df2中的值更新，其他数据都不更新

      A B C
1 1.0 4.0 5
2 NaN NaN 8
3 3.0 6.0 9
    A B
0 7 10
1 8 11
2 9 12
#更新后的值
     A   B    C
1 1.0 4.0   5
2 9.0 12.0 8
3 3.0  6.0  9

如果overwrite=True，则输出结果如下：索引为1和2的A列和B列都被更新

#更新后的值
     A   B   C
1 8.0 11.0 5
2 9.0 12.0 8
3 3.0  6.0  9

2）有两个DataFrame，df1有缺失值，添加一个lambda函数只更新偶数值

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)

# 使用 update 函数更新df1
df1.update(df2, filter_func=lambda x:x%2==0)
print(df1)

输出结果：更新了索引为0和2的B列中的偶数，替换为了df2中的值。

     A B C
0 1.0 4 5
1 NaN 3 8
2 3.0 6 9
   A B
0 7 10
1 8 11
2 9 12
#更新后的值
      A B C
0 1.0 10 5
1 NaN 3 8
2 3.0 12 9

四、compare 函数：数据差异的 “放大镜”

在实际的数据工作中，compare函数的作用就是直观地展示两个DataFrame之间的不同之处，将数据差异清晰地呈现出来，就像给数据差异加上了一个 “放大镜”，让我们一眼就能捕捉到关键信息。

函数原型

DataFrame.compare(other,align_axis=1,keep_shape=False,keep_equal=False,result_names=("self","other")

2. 参数详解

other：代表要与调用者（当前DataFrame）进行对比的另一个DataFrame，两个DataFrame需要有相同的索引和行列数，不一致会报错。
align_axis：指定对齐轴，默认值为1（按列比较）。当设置为0时，则按行比较。
keep_shape：布尔值，默认值为False。设置为True，则会保留原有的形状，即使某些列或行在对比中没有差异也会显示，只是填充为缺失值。
keep_equal：布尔值，默认值为False。设置为True，会保留两个DataFrame中相等的元素，在结果中用NaN来表示相等的部分。
result_names：表示对比差异显示的两个DataFrame的名称，默认显示为self和other。

示例

创建两个DataFrame，第一行的数据是相同的。

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 4, 3], 'B': [4, 7, 8]})
print(df1)
print(df2)

输出结果：

示例 1：使用 compare 函数，设置 result_names=('df1','df2')

diff_df = df1.compare(df2,result_names=('df1','df2'))
print(diff_df)

输出结果：

          A          B
   df1 df2    df1 df2
1 2.0   4.0    5.0 7.0
2 NaN NaN 6.0 8.0

示例 2：使用 compare 函数，设置align_axis=0按行比较

diff_df_axis = df1.compare(df2,align_axis=0)
print(diff_df_axis)

输出结果：

               A    B
1 self     2.0 5.0
  other   4.0 7.0
2 self    NaN 6.0
   other NaN 8.0

示例 3：使用 compare 函数，设置 keep_shape=True

diff_df_keep_shape = df1.compare(df2, keep_shape=True)
print(diff_df_keep_shape)

输出结果：

        A                B
   self other self other
0 NaN NaN NaN NaN
1 2.0     4.0    5.0   7.0
2 NaN NaN  6.0   8.0

示例 4：使用 compare 函数，设置 keep_equal=True

diff_df_keep_equal = df1.compare(df2, keep_equal=True)
print(diff_df_keep_equal)

输出结果：

       A                B
   self other self other
1   2     4         5     7
2   3     3         6     8

共勉：东汉·班固《汉书·枚乘传》：“泰山之管穿石，单极之绠断干。水非石之钻，索非木之锯，渐靡使之然也。”

-----指水滴不断地滴，可以滴穿石头；

-----比喻坚持不懈，集细微的力量也能成就难能的功劳。

----感谢读者的阅读和学习，谢谢大家。

pandas 数据类型转换

上一篇：五大实用技巧:将混乱的真实数据转化为可靠分析基础
下一篇：使用PandasGUI进行探索性数据分析

Python Pandas 库:解锁 combine、update 和compare函数的强大功能

一、combine 函数：灵活的数据合并与计算

函数原型

2. 参数详解

3. 示例

二、combine_first 函数：填充缺失值的利器

函数原型

示例

三、update 函数：选择性的数据更新

1. 函数原型

2. 参数详解

3. 示例

四、compare 函数：数据差异的 “放大镜”

函数原型

2. 参数详解

示例

相关推荐

Python实现人事自动打卡，再也不会被批评

【验证码逆向专栏】vaptcha 手势验证码逆向分析

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

系统C盘清理:微信PC端文件清理，扩大C盘可用空间步骤

10款高性能NAS丨双十一必看，轻松搞定虚拟机、Docker、软路由

python使用fitz模块提取pdf中的图片

Python Pandas 库:解锁 combine、update 和compare函数的强大功能

一、combine 函数：灵活的数据合并与计算

函数原型

2. 参数详解

3. 示例

二、combine_first 函数：填充缺失值的利器

函数原型

示例

三、update 函数：选择性的数据更新

1. 函数原型

2. 参数详解

3. 示例

四、compare 函数：数据差异的 “放大镜”

函数原型

2. 参数详解

示例

相关推荐

Python实现人事自动打卡，再也不会被批评

【验证码逆向专栏】vaptcha 手势验证码逆向分析

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

系统C盘清理:微信PC端文件清理，扩大C盘可用空间步骤

10款高性能NAS丨双十一必看，轻松搞定虚拟机、Docker、软路由

python使用fitz模块提取pdf中的图片

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄