百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

python数据分析:详解数据框的合并

liuian 2025-09-04 11:49 22 浏览

不知道大家有没有分析过Kaggle的数据或者参加过Kaggle的挑战,里面的数据都分布在几个不同的数据集中,合并数据在所难免。今天给大家详细总结一波pandas中数据框合并和连接的方法。建议收藏,哈哈。

生成练习用的数据框

首先我们先用如下代码生成3个数据框,作为演示讲解之用。

df1 =pd.DataFrame({
        'id': ['1', '2', '3', '4', '5'],
        'Feature1': ['A', 'C', 'E', 'G', 'I'],
        'Feature2': ['B', 'D', 'F', 'H', 'J']}) 
df2 =pd.DataFrame({
        'id': ['1', '2', '6', '7', '8'],
        'Feature1': ['K', 'M', 'O', 'Q', 'S'],
        'Feature2': ['L', 'N', 'P', 'R', 'T']})
df3 = pd.DataFrame({
        'id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'Feature3': [12, 13, 14, 15, 16, 17, 15, 12, 13, 23]})

得到3个数据框,如下:



连接数据框Concatenate DataFrames

如果只是简单的连接两个数据框的行的话,直接调用concat()方法即可

df_row = pd.concat([df1, df2])

df_row



可以看到,数据框df1和df2就以行连接在一起了,但是你注意到没,此时数据框的索引有问题,我们想要的索引应该自动给我们填好才对,这个时候我们需要将ignore_index参数设置为True。

df_row = pd.concat([df1, df2], ignore_index=True)

这个时候索引就正确了。

有时候,你虽然连接了2个数据框,但是你还是想知道新数据框的数据分别来自哪个数据框,这个时候调用keys参数就可以,例如,我们在上面的例子中将来自df1的数据和df2的数据分别加上标签x,y。

df_keys = pd.concat([df1,df2], keys=['x', 'y'])

df_keys


可以看到,新数据框中哪些数据来自于哪个数据框一目了然。

同时,给新的数据框加上标签也有助于我们在新数据中切片出旧的数据框,例如

df_keys.loc['y']


通过以上代码,很容易在新数据框中切片出了df2。

在连接数据框时还有一个技巧,就是将数据框以字典值的形式传递给 concat(),可以在连接的新数据框中自动加上标签,这个标签就是字典的键。看下例:

df_piece = pd.concat({'第一个框':df1,'第二个框':df2})

df_piece


有没有很好使?

concat()函数也可以横向连接数据框,只需要将axis设置为1即可

df_col = pd.concat([df1,df2], axis=1)

df_col


可以看到这个就是横向连接。

合并数据框Merge DataFrames

我们看一下如何将df_row(由df1和df2连接后得到,见之前的例子)和df3以共同的id为基础合并起来。

df_merge_col = pd.merge(df_row, df3, on='id')

df_merge_col


此时,我们注意到id等于1的行出现了2次,是因为在df_row中是有2个id等于1的,而在df3中id等于1只有一次,所以合并后的feature3都是12。

还有一种情况是你要合并的2个数据框没有一样名字的列,需要你指定,这个时候就要用到left_on,right_on参数了。

df_merge_difkey = pd.merge(df_row, df3, left_on='id', right_on='id')

df_merge_difkey


此例中我们左右数据框都指定以id为基础进行合并。

还有一种情况是,你想给原先的数据框加一行新数据,看下例:

add_row = pd.Series(['10', 'X1', 'X2', 'X3'],
                    index=['id','Feature1', 'Feature2', 'Feature3'])

df_add_row = df_merge_col.append(add_row, ignore_index=True)

df_add_row

可以看到,通过append可以给一个数据框加上一个新的series。

不同的合并逻辑Outer,Inner,Right,Left与index

Outer合并会将两个数据库的所有数据都合并,相当于取原来数据库的并集形成一个新的数据库

df_outer = pd.merge(df1, df2, on='id', how='outer')

df_outer


可以看到,这种合并方法,生成的新数据集中会有很多NaN的值,还有,需要注意的是这种方法会自动将相同列名加上后缀,而且这个后缀是可以改的,看下例:

df_suffix = pd.merge(df1, df2, left_on='id',right_on='id',how='outer',suffixes=('_left','_right'))

df_suffix


可以看到suffixes参数可以修改后缀。

Inner合并生成的新数据集中只会有原来2个数据集中都有的数据,相当于取了两个数据框的交集。

df_inner = pd.merge(df1, df2, on='id', how='inner')

df_inner


相应的,Right,和Left就是分别以第二个和第一个数据框中的变量为基准进行数据框的合并,大家也可以试试。有时候,我们会根据2个数据框的index来合并,此时,只需要将right_index,left_index两个参数设置为True即可。看下面例子:

df_index = pd.merge(df1, df2, right_index=True, left_index=True)

df_index


结论

好了,今天给大家介绍了concat() 和 merge()合并数据框的用法,希望对大家有帮助。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

(站外链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据)

往期精彩:

python数据分析:缺失数据的处理

python数据分析:离群值的检测和处理

python应用:如何用python提取pdf文件中的文字

相关推荐

有win10安装包怎么装系统(win10安装包安装教程)
有win10安装包怎么装系统(win10安装包安装教程)

如果是原版ISO镜像,可以加载到虚拟光驱直接安装。如果是第三方更改的就需要启动盘。个人建议用U盘启动盘来安装。下载一个u盘启动盘程序(优启通、大白菜……),按照提示把它安装到U盘。启动盘制作完毕以后,启动电脑安快捷键选择U盘启动。进入pe后...

2026-01-14 16:37 liuian

gho怎么变成iso文件(gho改成iso)

要将GHO转换为ISO,您需要使用GHO映像转换器软件。以下是执行此操作的步骤:1.下载和安装GHO映像转换器软件。2.运行转换器软件,并单击“打开”按钮。3.在弹出窗口中,选择要转换的GHO...

office和visio安装顺序(office和visio怎么一起安装)

在某些情况下,安装Visio可能会发生与Office365冲突的问题。这是因为Visio和Office365具有不同的版本,可能会导致安装时出现错误或兼容性问题。为了避免这种冲突,...

小白一键装系统(小白一键系统重装)
  • 小白一键装系统(小白一键系统重装)
  • 小白一键装系统(小白一键系统重装)
  • 小白一键装系统(小白一键系统重装)
  • 小白一键装系统(小白一键系统重装)
电脑中病毒的原因(电脑中病毒正常吗)

电脑中毒的原因有以下几方面:1.网页被挂病毒。2.电脑裸奔,无防病毒软件。3.执行一些不安全的程序。4.U盘等不安全介质。5.电脑漏洞不及时补,被后台种毒。为了电脑不中病毒要注意以下几方面:1.更新系...

手机psd转换成jpg最简单方式

可以使用photoshop工具,方法如下:1、首先打开PS软件,然后选择自己需要的JPG格式的图片,在PS中打开。2、接下来先按快捷键“Ctrl+j”将图片复制出来,防止后面操作对原图片有损...

qq好友回复恢复官网(官方qq好友恢复)
  • qq好友回复恢复官网(官方qq好友恢复)
  • qq好友回复恢复官网(官方qq好友恢复)
  • qq好友回复恢复官网(官方qq好友恢复)
  • qq好友回复恢复官网(官方qq好友恢复)
win7提示激活码过期怎么办(win7激活已过期)

以win7为例,出现这样的问题原因分析:电脑的win7系统激活过又重新提示要激活的原因是因为微软对网络上的秘钥进行封杀所以导致我们激活无效。具体的解决方法:1、我们打开dos命令窗口,在创立中输入“s...

联想笔记本光驱驱动下载(联想电脑光驱驱动器在哪)

开机时进入BIOS,具体按什么牌子不同,按键也不同,开机有提示的,选择启动项,把光驱启动的顺序放到第一.按F10保存,重新启动就是光驱启动啦不需要设置光驱驱动,笔记本自带光驱驱动光驱是电脑的硬件设备,...

win10装机必备实用软件(win10电脑装机必备软件)

1、office大部分的版本如office2007、office2000、office2011、office2013、office2016、office365等都支持win10。2、需要注意...

迅雷无法下载的链接用什么下载

1.可以使用其他下载工具代替迅雷。2.迅雷可能无法下载的原因有很多,比如网络问题、软件故障等。其他下载工具可以提供类似的功能,但可能具有更好的稳定性和兼容性。3.一些常见的替代迅雷的下载工具包括...

apple官方网站(apple官方网站旗舰店)

1、首先打开浏览器,输入https://www.apple.com/;2、即可浏览苹果官网。 苹果公司(AppleInc.)是美国一家高科技公司。由史蒂夫·乔布斯、斯蒂夫·沃兹尼亚克和罗·韦恩(R...

哪些手机用鸿蒙系统(都什么手机能用鸿蒙系统)

截至目前,国内有以下几款手机品牌可以装鸿蒙系统:1.华为:华为Mate40系列、P40系列、Mate30系列、MatePadPro系列等。2.荣耀:荣耀V40、荣耀30系列、荣耀X10系列等...

手机u盘读不出来了怎么修复(手机u盘读取不出来)

1、手机不支持OTG功能,所以将U盘连接到手机后,手机无法识别U盘的内容,因此显示不了;这种情况只能换台支持OTG功能的手机来连接U盘才行。2、手机支持OTG功能,但是使用的OTG线质量有问题导致无法...

笔记本散热器买哪种好(笔记本散热器买哪种好贴吧)

散热器有十大品牌:九州风神、超频三,酷冷至尊Tt、AVC、思民、捷冷、安钛克Antec、安耐美Enermax、海盗船Corsair。能位列十大品牌,每一种的质量和功能都有保障。、目前网上销量最高的是九...