百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

「Python数据分析」Pandas进阶,使用merge()函数合并数据

liuian 2025-04-06 18:05 9 浏览

在使用python语言进行数据分析的过程中,我们的数据,有很大一部分是结构化数据,也就是比较整齐的数据。

这里,我不展开讲什么是结构化数据,因为这个范围太过于庞大。但是,有一个知识点,必须要讲一下。这个知识点就是,数据的主键。

之前,我们讲过利用concat函数进行数据合并操作。通常情况下,concat函数只是把各种原始数据集,一股脑的按照行,或者是列,进行合并。

通俗点讲,就是把数据直接一锅粥的放在一起,不考虑数据的结构问题,因为行和列缺失的话,都可以通过缺失值来进行填补。

数据的主键

而今天要讲的merge函数,等同于SQL语言中的连接语句,需要使用到数据的主键,也就是需要满足关系型数据库的第二范式。

这部分内容,过于抽象,我们使用merge函数进行数据连接操作,只需要知道数据的主键。也就是说,我们的数据集中,至少要有一列(通常是放在第一列),这一列中的数据,不允许出现重复值,能够唯一标识我们数据集中,每一行的值。

比如说,我们的人员信息表中的数据集,可能会有:身份证号码,姓名,年龄,等等数据。那么,身份证号码这一列,就是我们人员信息表的主键列,我们每个人,都可以通过身份证号码来唯一标识,因为我们每一个人,都只有一个身份证号码,不会重复。

数据连接的类型

使用merge函数连接数据,和使用sql语言命令连接数据,基本一致,也是有三种连接的类型。

一对一连接

这种连接方式,适用于同一批数据,分散在不同的数据集中的情况。

比如说,我们的个人信息,可能就会分为基本信息部分,教育信息部分,工作信息部分等等。每一部分信息,都是通过身份证号码的关键字来唯一标识。

这样,我们就可以通过一对一连接,把这几部分,都是表示我们个人信息的数据集,连接起来,以便后续进行分析和处理。

多对一连接

这里,我举例来进行说明。比如说,假设我们是订单处理员,我们每天会处理很多个订单。那么,订单和处理员的关系,就是多对一的关系。

在订单中,需要加入处理员的身份证号码,用来确认这个订单是某个处理员完成的。这样的话,我们就可以通过身份证号码,把订单数据和处理员数据,连接起来,形成一个新的数据集。

多对多连接

多对多连接,是比较抽象的一种连接过程。我还是通过例子,来帮助大家了解这种连接方式。

比如说,我们的政府部门,会有就业数据。在就业数据中,求职者可以向多个公司求职,而公司呢,也可以接受多个求职者的求职请求。

这种情况下,求职者和公司之间,就是多对多的关系。我们的政府,如果需要对就业数据进行分析处理的话,就需要把求职者和公司,通过多对多的连接方式,把数据连接起来。

一对一连接例子

我们先来看一个一对一连接的简单例子。

连接过程如下图所示

原始数据生成

原始数据集

使用merge函数,通过key连接

以上,就是一个一对一数据集连接的例子。在数据集left和right中,key完全一致,即表示两个数据集是一对一关系。

这样,就可以通过key关键字,把两个数据集中的数据,按照列的顺序,连接在一起,key关键字列保持不变。

左连接

在左连接中,merge函数的方法是:left,SQL语句的连接名称是:LEFT OUTER JOIN。

左连接表示的含义是,以左边数据集中的关键字为参照,连接左右两边的数据集。连接完成后的新数据集,保留左边数据集中的数据。右边数据集的列加入左边数据集,并且右边数据集中的关键字和左边数据集相等的话,填充加入列的数据。

我们还是通过例子进行说明

连接过程图示

生成原始数据集

原始数据格式

连接过程

我们可以观察数据,这里是通过left方法进行连接,所以保留left数据集中的数据。然后,我们是用联合主键的形式,也就是key1和key2联合起来进行连接。K1和K0,在left数据集中出现了一次,在right数据集中出现了两次,所以结果数据集中,就有两行K1和K0标识的数据集。

右连接

在右连接中,merge函数的方法是:right,SQL语句的连接名称是:RIGHT OUTER JOIN。

连接过程图示

连接过程

注意这里是以右侧数据集right为基准,所以保留right数据集中的数据,把left中的列,加入到right中,通过联合主键key1和key2进行连接。

外连接

在外连接中,merge函数的方法是:outer,SQL语句的连接名称是:FULL OUTER JOIN。

连接过程图示

连接过程

外连接,其实就是把左边和右边的主键全部放在一起,两边都有的主键,就回填所有列的数据。如果left没有的主键,则left的列,在新数据集中回填空值,right则相反。

内连接

在内连接中,merge函数的方法是:inner,SQL语句的连接名称是:INNER JOIN。

连接过程图示

连接过程

内连接可以这样理解,那就是左侧数据集和右侧数据集,联合主键相等,也就是左侧和右侧,同时出现的主键的数据行保留,最后生成新数据集。

总结

以上4种连接方式,是数据连接中的主要连接方式,也是merge函数中的主要连接方法。在实际数据分析和处理过程中,左连接和右连接运用场景更多一些,希望大家对照图示,参照代码,灵活熟练掌握这4种常用的数据连接方法。

相关推荐

GCI: Another key public good for international community

MembersofadelegationofhighschoolstudentsfromtheU.S.stateofWashingtonposeforaphotoa...

kube on kube 实现思路分享(kube-scheduler)

这里的kubeonkube,是指建立K8s元集群,纳管其他业务K8s集群,通过声明式API管理集群的创建、增删节点等。参考https://github.com/kubean-i...

China and India hold the key to a more inclusive global future

ByMayaMajueranLead:AsChinaandIndiamark75yearsofdiplomaticties,theircooperationcouldse...

日本真子公主的婚礼又要提上日程了吗?未婚夫:债务问题已解决

日本明仁天皇将于今年3月31日退位,德仁皇太子即将成为新一任的天皇。在平成时代最后的倒计时中,明仁天皇的孙女真子公主的婚事却又一次进入了人们的视野。(viaTheTelegraph)关注日本皇室的...

kratos源码分析系列(1)(kvm源码解析与应用 pdf)

https://github.com/go-kratos/kratos是b站开源的一个微服务框架,整体来看它结合grpc生态中的grpc-gateway,以及wire依赖注入和众多常用的trace,m...

【2.C#基础】6.循环语句(c#循环语句例子)

6.循环语句当需要多次执行同一个处理时,就需要用到循环语句。一般情况下,循环的流程图如下:6.1while循环C#中的while循环语句在给定的条件为真的情况下会重复执行目标语句。格式如下:...

使用 Google Wire 在 Go 中进行依赖注入

关注点分离、松耦合系统和依赖反转原则等概念在软件工程中是众所周知的,并且在创建良好的计算机程序过程中至关重要。在本文中,我们将讨论一个同时应用了这三个原则的技术,称为依赖注入。我们将尽可能地实践,更加...

用 Golang封装你的API(golang封装dll)
用 Golang封装你的API(golang封装dll)

每日分享最新,最流行的软件开发知识与最新行业趋势,希望大家能够一键三连,多多支持,跪求关注,点赞,留言。@头条创作挑战赛本文探讨了在用Golang封装你的API的过程以及几个不同的编程步骤。我做了一个非常有限的时间来证明如何为客户正在开...

2025-05-09 20:03 liuian

Terraform 实战 | 万字长文(terrify是什么意思中文)

Terraform是什么Terraform(https://www.terraform.io/)是HashiCorp旗下的一款开源(Go语言开发)的DevOps基础架构资源管理运维工具,可...

Go 语言入门:环境安装(go语言安装 window)

一、前言这里不同于其他人的Go语言入门,环境安装我向来注重配置,比如依赖包、缓存的默认目录。因为前期不弄好,后面要整理又影响这影响那的,所以就干脆写成文章,方便后期捡起。二、安装1.安装包htt...

Go语言进阶之Go语言高性能Web框架Iris项目实战-项目结构优化EP05

前文再续,上一回我们完成了用户管理模块的CURD(增删改查)功能,功能层面,无甚大观,但有一个结构性的缺陷显而易见,那就是项目结构过度耦合,项目的耦合性(Coupling),也叫耦合度,进而言之,模块...

如何将Go项目与Docker结合实现高效部署

在现代软件开发中,使用Docker部署应用程序已经成为一种标准实践。本文将深入探讨如何将Go项目与Docker结合,实现高效、可靠的部署过程。通过详细的步骤和丰富的示例,你将能够迅速掌握这一流程。准备...

五分钟轻松熟悉一个k8s Operator应用制作

简介:operator是一种kubernetes的扩展形式,可以帮助用户以Kubernetes的声明式API风格自定义来管理应用及服务,operator已经成为分布式应用在k8s集群部...

程序员的副业秘籍!一款可以快速搭建各类系统的后台管理系统

系统简介这是一个基于Gin+Vue+ElementUI(或ArcoDesign、AntDesign)的系统快速开发平台,采用了前后端分离,旨在帮助用户快速完成各类系统的基础功能搭建。平...

使用 Go 语言开发区块链钱包的项目目录结构设计

在开发区块链钱包时,项目的目录结构应该清晰、模块化,确保代码的可维护性和扩展性。基于Go的惯例,结合区块链钱包的功能需求,以下是一个较为合理的目录结构示例:1.目录结构blockchain-wa...