「Python数据分析」Pandas进阶,使用merge()函数合并数据
liuian 2025-04-06 18:05 9 浏览
在使用python语言进行数据分析的过程中,我们的数据,有很大一部分是结构化数据,也就是比较整齐的数据。
这里,我不展开讲什么是结构化数据,因为这个范围太过于庞大。但是,有一个知识点,必须要讲一下。这个知识点就是,数据的主键。
之前,我们讲过利用concat函数进行数据合并操作。通常情况下,concat函数只是把各种原始数据集,一股脑的按照行,或者是列,进行合并。
通俗点讲,就是把数据直接一锅粥的放在一起,不考虑数据的结构问题,因为行和列缺失的话,都可以通过缺失值来进行填补。
数据的主键
而今天要讲的merge函数,等同于SQL语言中的连接语句,需要使用到数据的主键,也就是需要满足关系型数据库的第二范式。
这部分内容,过于抽象,我们使用merge函数进行数据连接操作,只需要知道数据的主键。也就是说,我们的数据集中,至少要有一列(通常是放在第一列),这一列中的数据,不允许出现重复值,能够唯一标识我们数据集中,每一行的值。
比如说,我们的人员信息表中的数据集,可能会有:身份证号码,姓名,年龄,等等数据。那么,身份证号码这一列,就是我们人员信息表的主键列,我们每个人,都可以通过身份证号码来唯一标识,因为我们每一个人,都只有一个身份证号码,不会重复。
数据连接的类型
使用merge函数连接数据,和使用sql语言命令连接数据,基本一致,也是有三种连接的类型。
一对一连接
这种连接方式,适用于同一批数据,分散在不同的数据集中的情况。
比如说,我们的个人信息,可能就会分为基本信息部分,教育信息部分,工作信息部分等等。每一部分信息,都是通过身份证号码的关键字来唯一标识。
这样,我们就可以通过一对一连接,把这几部分,都是表示我们个人信息的数据集,连接起来,以便后续进行分析和处理。
多对一连接
这里,我举例来进行说明。比如说,假设我们是订单处理员,我们每天会处理很多个订单。那么,订单和处理员的关系,就是多对一的关系。
在订单中,需要加入处理员的身份证号码,用来确认这个订单是某个处理员完成的。这样的话,我们就可以通过身份证号码,把订单数据和处理员数据,连接起来,形成一个新的数据集。
多对多连接
多对多连接,是比较抽象的一种连接过程。我还是通过例子,来帮助大家了解这种连接方式。
比如说,我们的政府部门,会有就业数据。在就业数据中,求职者可以向多个公司求职,而公司呢,也可以接受多个求职者的求职请求。
这种情况下,求职者和公司之间,就是多对多的关系。我们的政府,如果需要对就业数据进行分析处理的话,就需要把求职者和公司,通过多对多的连接方式,把数据连接起来。
一对一连接例子
我们先来看一个一对一连接的简单例子。
连接过程如下图所示
原始数据生成
原始数据集
使用merge函数,通过key连接
以上,就是一个一对一数据集连接的例子。在数据集left和right中,key完全一致,即表示两个数据集是一对一关系。
这样,就可以通过key关键字,把两个数据集中的数据,按照列的顺序,连接在一起,key关键字列保持不变。
左连接
在左连接中,merge函数的方法是:left,SQL语句的连接名称是:LEFT OUTER JOIN。
左连接表示的含义是,以左边数据集中的关键字为参照,连接左右两边的数据集。连接完成后的新数据集,保留左边数据集中的数据。右边数据集的列加入左边数据集,并且右边数据集中的关键字和左边数据集相等的话,填充加入列的数据。
我们还是通过例子进行说明
连接过程图示
生成原始数据集
原始数据格式
连接过程
我们可以观察数据,这里是通过left方法进行连接,所以保留left数据集中的数据。然后,我们是用联合主键的形式,也就是key1和key2联合起来进行连接。K1和K0,在left数据集中出现了一次,在right数据集中出现了两次,所以结果数据集中,就有两行K1和K0标识的数据集。
右连接
在右连接中,merge函数的方法是:right,SQL语句的连接名称是:RIGHT OUTER JOIN。
连接过程图示
连接过程
注意这里是以右侧数据集right为基准,所以保留right数据集中的数据,把left中的列,加入到right中,通过联合主键key1和key2进行连接。
外连接
在外连接中,merge函数的方法是:outer,SQL语句的连接名称是:FULL OUTER JOIN。
连接过程图示
连接过程
外连接,其实就是把左边和右边的主键全部放在一起,两边都有的主键,就回填所有列的数据。如果left没有的主键,则left的列,在新数据集中回填空值,right则相反。
内连接
在内连接中,merge函数的方法是:inner,SQL语句的连接名称是:INNER JOIN。
连接过程图示
连接过程
内连接可以这样理解,那就是左侧数据集和右侧数据集,联合主键相等,也就是左侧和右侧,同时出现的主键的数据行保留,最后生成新数据集。
总结
以上4种连接方式,是数据连接中的主要连接方式,也是merge函数中的主要连接方法。在实际数据分析和处理过程中,左连接和右连接运用场景更多一些,希望大家对照图示,参照代码,灵活熟练掌握这4种常用的数据连接方法。
相关推荐
- GCI: Another key public good for international community
-
MembersofadelegationofhighschoolstudentsfromtheU.S.stateofWashingtonposeforaphotoa...
- kube on kube 实现思路分享(kube-scheduler)
-
这里的kubeonkube,是指建立K8s元集群,纳管其他业务K8s集群,通过声明式API管理集群的创建、增删节点等。参考https://github.com/kubean-i...
- China and India hold the key to a more inclusive global future
-
ByMayaMajueranLead:AsChinaandIndiamark75yearsofdiplomaticties,theircooperationcouldse...
- 日本真子公主的婚礼又要提上日程了吗?未婚夫:债务问题已解决
-
日本明仁天皇将于今年3月31日退位,德仁皇太子即将成为新一任的天皇。在平成时代最后的倒计时中,明仁天皇的孙女真子公主的婚事却又一次进入了人们的视野。(viaTheTelegraph)关注日本皇室的...
- kratos源码分析系列(1)(kvm源码解析与应用 pdf)
-
https://github.com/go-kratos/kratos是b站开源的一个微服务框架,整体来看它结合grpc生态中的grpc-gateway,以及wire依赖注入和众多常用的trace,m...
- 【2.C#基础】6.循环语句(c#循环语句例子)
-
6.循环语句当需要多次执行同一个处理时,就需要用到循环语句。一般情况下,循环的流程图如下:6.1while循环C#中的while循环语句在给定的条件为真的情况下会重复执行目标语句。格式如下:...
- 使用 Google Wire 在 Go 中进行依赖注入
-
关注点分离、松耦合系统和依赖反转原则等概念在软件工程中是众所周知的,并且在创建良好的计算机程序过程中至关重要。在本文中,我们将讨论一个同时应用了这三个原则的技术,称为依赖注入。我们将尽可能地实践,更加...
-
- 用 Golang封装你的API(golang封装dll)
-
每日分享最新,最流行的软件开发知识与最新行业趋势,希望大家能够一键三连,多多支持,跪求关注,点赞,留言。@头条创作挑战赛本文探讨了在用Golang封装你的API的过程以及几个不同的编程步骤。我做了一个非常有限的时间来证明如何为客户正在开...
-
2025-05-09 20:03 liuian
- Terraform 实战 | 万字长文(terrify是什么意思中文)
-
Terraform是什么Terraform(https://www.terraform.io/)是HashiCorp旗下的一款开源(Go语言开发)的DevOps基础架构资源管理运维工具,可...
- Go 语言入门:环境安装(go语言安装 window)
-
一、前言这里不同于其他人的Go语言入门,环境安装我向来注重配置,比如依赖包、缓存的默认目录。因为前期不弄好,后面要整理又影响这影响那的,所以就干脆写成文章,方便后期捡起。二、安装1.安装包htt...
- Go语言进阶之Go语言高性能Web框架Iris项目实战-项目结构优化EP05
-
前文再续,上一回我们完成了用户管理模块的CURD(增删改查)功能,功能层面,无甚大观,但有一个结构性的缺陷显而易见,那就是项目结构过度耦合,项目的耦合性(Coupling),也叫耦合度,进而言之,模块...
- 如何将Go项目与Docker结合实现高效部署
-
在现代软件开发中,使用Docker部署应用程序已经成为一种标准实践。本文将深入探讨如何将Go项目与Docker结合,实现高效、可靠的部署过程。通过详细的步骤和丰富的示例,你将能够迅速掌握这一流程。准备...
- 五分钟轻松熟悉一个k8s Operator应用制作
-
简介:operator是一种kubernetes的扩展形式,可以帮助用户以Kubernetes的声明式API风格自定义来管理应用及服务,operator已经成为分布式应用在k8s集群部...
- 程序员的副业秘籍!一款可以快速搭建各类系统的后台管理系统
-
系统简介这是一个基于Gin+Vue+ElementUI(或ArcoDesign、AntDesign)的系统快速开发平台,采用了前后端分离,旨在帮助用户快速完成各类系统的基础功能搭建。平...
- 使用 Go 语言开发区块链钱包的项目目录结构设计
-
在开发区块链钱包时,项目的目录结构应该清晰、模块化,确保代码的可维护性和扩展性。基于Go的惯例,结合区块链钱包的功能需求,以下是一个较为合理的目录结构示例:1.目录结构blockchain-wa...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
python使用fitz模块提取pdf中的图片
-
《人人译客》如何规划你的移动电商网站(2)
-
Jupyterhub安装教程 jupyter怎么安装包
-
- 最近发表
-
- GCI: Another key public good for international community
- kube on kube 实现思路分享(kube-scheduler)
- China and India hold the key to a more inclusive global future
- 日本真子公主的婚礼又要提上日程了吗?未婚夫:债务问题已解决
- kratos源码分析系列(1)(kvm源码解析与应用 pdf)
- 【2.C#基础】6.循环语句(c#循环语句例子)
- 使用 Google Wire 在 Go 中进行依赖注入
- 用 Golang封装你的API(golang封装dll)
- Terraform 实战 | 万字长文(terrify是什么意思中文)
- Go 语言入门:环境安装(go语言安装 window)
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- react-admin (33)
- vscode切换git分支 (35)
- vscode美化代码 (33)
- python bytes转16进制 (35)