百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Pandas宝藏函数-concat()

liuian 2025-01-12 16:25 32 浏览

作者:小伍哥

来源:AI入门学习

在数据处理过程中,经常会遇到多个表进行拼接合并的需求,在Pandas中有多个拼接合并的方法,每种方法都有自己擅长的拼接方式,本文对pd.concat()进行详细讲解,希望对你有帮助。pd.concat()函数可以沿着指定的轴将多个dataframe或者series拼接到一起,这一点和另一个常用的pd.merge()函数不同,pd.merge()解决数据库样式的左右拼接,不能解决上下拼接。

一、基本语法

pd.concat(

     objs,      

     axis=0,     

     join='outer',

     ignore_index=False,

     keys=None,      

     levels=None,     

     names=None,      

     verify_integrity=False,     

     copy=True)

二、参数含义

  • objs:Series,DataFrame或Panel对象的序列或映射,如果传递了dict,则排序的键将用作键参数
  • axis:{0,1,...},默认为0,也就是纵向上进行合并。沿着连接的轴。
  • join:{'inner','outer'},默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。
  • ignore_index:boolean,default False。如果为True,请不要使用并置轴上的索引值。结果轴将被标记为0,...,n-1。如果要连接其中并置轴没有有意义的索引信息的对象,这将非常有用。注意,其他轴上的索引值在连接中仍然受到尊重。
  • keys:序列,默认值无。使用传递的键作为最外层构建层次索引。如果为多索引,应该使用元组。
  • levels:序列列表,默认值无。用于构建MultiIndex的特定级别(唯一值)。否则,它们将从键推断。
  • names:list,default无。结果层次索引中的级别的名称。
  • verify_integrity:boolean,default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
  • copy:boolean,default True。如果为False,请勿不必要地复制数据。

三、竖向堆叠

#构建需要的数据表
import pandas as pd
df1 = pd.DataFrame({'A':['A{}'.format(i) for i in range(0,4)],
                    'B':['B{}'.format(i) for i in range(0,4)],
                    'C':['C{}'.format(i) for i in range(0,4)]
                 })


df2 = pd.DataFrame({'A':['A{}'.format(i) for i in range(4,8)],
                    'B':['B{}'.format(i) for i in range(4,8)],
                    'C':['C{}'.format(i) for i in range(4,8)]
                 })
df3 = pd.DataFrame({'A':['A{}'.format(i) for i in range(8,12)],
                    'B':['B{}'.format(i) for i in range(8,12)],
                    'C':['C{}'.format(i) for i in range(8,12)]
                 })
现将表构成list,然后在作为concat的输入
frames = [df1, df2, df3]

result = pd.concat(frames)

 A    B    C

0   A0   B0   C0

1   A1   B1   C1

2   A2   B2   C2

3   A3   B3   C3

0   A4   B4   C4

1   A5   B5   C5

2   A6   B6   C6

3   A7   B7   C7

0   A8   B8   C8

1   A9   B9   C9

2  A10  B10  C10

3  A11  B11  C11

传入也可以是字典

frames = {'df1':df1, 'df2':df2,'df3':df3}

result = pd.concat(frames)

   A    B    C

df1 0   A0   B0   C0

    1   A1   B1   C1

    2   A2   B2   C2

    3   A3   B3   C3

df2 0   A4   B4   C4

    1   A5   B5   C5

    2   A6   B6   C6

    3   A7   B7   C7

df3 0   A8   B8   C8

    1   A9   B9   C9

    2  A10  B10  C10

    3  A11  B11  C11
三、横向拼接

1、axis

当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并

#再构建一个表

df4 = pd.DataFrame({'C':['C{}'.format(i) for i in range(3,9)],

                    'E':['E{}'.format(i) for i in range(3,9)],

                    'F':['F{}'.format(i) for i in range(3,9)]

                 })

pd.concat([df1,df4], axis=1)

     A    B    C   C   E   F

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8

2、join

加上join参数的属性,如果为'inner'得到的是两表的交集,如果是outer,得到的是两表的并集。

#  join='inner' 取交集

pd.concat([df1, df4], axis=1, join='inner')

    A   B   C   C   E   F

0  A0  B0  C0  C3  E3  F3

1  A1  B1  C1  C4  E4  F4

2  A2  B2  C2  C5  E5  F5

3  A3  B3  C3  C6  E6  F6




# join='outer' 和 默认值相同

pd.concat([df1, df4], axis=1, join='outer')

     A    B    C   C   E   F

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8
四、对比append方法

append是series和dataframe的方法,使用它就是默认沿着列进行凭借(axis = 0,列对齐)

df1.append(df2)

    A   B   C

0  A0  B0  C0

1  A1  B1  C1

2  A2  B2  C2

3  A3  B3  C3

0  A4  B4  C4

1  A5  B5  C5

2  A6  B6  C6

3  A7  B7  C7
五、忽略index

如果两个表的index都没有实际含义,使用ignore_index参数,置true,合并的两个表就睡根据列字段对齐,然后合并。最后再重新整理一个新的index。

pd.concat([df1, df4], axis=1, ignore_index=True) 

    0    1    2   3   4   5

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8
六、增加区分组键

前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源

1、可以直接用key参数实现

pd.concat([df1,df2,df3], keys=['x', 'y', 'z'])

 A    B    C

x 0   A0   B0   C0

  1   A1   B1   C1

  2   A2   B2   C2

  3   A3   B3   C3

y 0   A4   B4   C4

  1   A5   B5   C5

  2   A6   B6   C6

  3   A7   B7   C7

z 0   A8   B8   C8

  1   A9   B9   C9

  2  A10  B10  C10

  3  A11  B11  C11

2、传入字典来增加分组键

frames = {'df1':df1, 'df2':df2,'df3':df3}
result = pd.concat(frames)
   A    B    C
df1 0   A0   B0   C0
    1   A1   B1   C1
    2   A2   B2   C2
    3   A3   B3   C3
df2 0   A4   B4   C4
    1   A5   B5   C5
    2   A6   B6   C6
    3   A7   B7   C7
df3 0   A8   B8   C8
    1   A9   B9   C9
    2  A10  B10  C10
    3  A11  B11  C11

七、加入新的行

1、列字段相同的加入

append方法可以将 series 和 字典就够的数据作为dataframe的新一行插入。

s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])

df1.append(s2, ignore_index=True)

  A   B   C    D

0  A0  B0  C0  NaN

1  A1  B1  C1  NaN

2  A2  B2  C2  NaN

3  A3  B3  C3  NaN

4  X0  X1  X2   X3

2、列字段不同的加入

如果遇到两张表的列字段本来就不一样,但又想将两个表合并,其中无效的值用nan来表示。那么可以使用ignore_index来实现。

dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},

         {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]

df1.append(dicts, ignore_index=True)

 A   B   C    X    Y

0  A0  B0  C0  NaN  NaN

1  A1  B1  C1  NaN  NaN

2  A2  B2  C2  NaN  NaN

3  A3  B3  C3  NaN  NaN

4   1   2   3  4.0  NaN

5   5   6   7  NaN  8.0


相关推荐

Python生态下的微服务框架FastAPI

FastAPI是什么FastAPI是一个用于构建API的web框架,使用Python并基于标准的Python类型提示。与flask相比有什么优势高性能:得益于uvloop,可达到与...

SpringBoot:如何解决跨域问题,详细方案和示例代码

跨域问题在前端开发中经常会遇到,特别是在使用SpringBoot框架进行后端开发时。解决跨域问题的方法有很多,我将为你提供一种详细的方案,包含示例代码。首先,让我们了解一下什么是跨域问题。跨域是指在...

使用Nginx轻松搞定跨域问题_使用nginx轻松搞定跨域问题的方法

跨域问题(Cross-OriginResourceSharing,简称CORS)是由浏览器的同源策略引起的。同源策略指的是浏览器限制来自不同源(协议、域名、端口)的JavaScript对资源的...

spring boot过滤器与拦截器的区别

有小伙伴使用springboot开发多年,但是对于过滤器和拦截器的主要区别依然傻傻分不清。今天就对这两个概念做一个全面的盘点。定义与作用范围过滤器(Filter):过滤器是一种可以动态地拦截、处理和...

nginx如何配置跨域_nginx配置跨域访问

要在Nginx中配置跨域,可以使用add_header指令来添加Access-Control-Allow-*头信息,如下所示:location/api{if($reques...

解决跨域问题的8种方法,含网关、Nginx和SpringBoot~

跨域问题是浏览器为了保护用户的信息安全,实施了同源策略(Same-OriginPolicy),即只允许页面请求同源(相同协议、域名和端口)的资源,当JavaScript发起的请求跨越了同源策略,...

图解CORS_图解数学

CORS的全称是Cross-originresourcesharing,中文名称是跨域资源共享,是一种让受限资源能够被其他域名的页面访问的一种机制。下图描述了CORS机制。一、源(Orig...

CORS 幕后实际工作原理_cors的工作原理

跨域资源共享(CORS)是Web浏览器实施的一项重要安全机制,用于保护用户免受潜在恶意脚本的攻击。然而,这也是开发人员(尤其是Web开发新手)感到沮丧的常见原因。小编在此将向大家解释它存在...

群晖无法拉取Docker镜像?最稳定的方法:搭建自己的加速服务!

因为未知的原因,国内的各大DockerHub镜像服务器无法使用,导致在使用群晖时无法拉取镜像构建容器。网上大部分的镜像加速服务都是通过Cloudflare(CF)搭建的,为什么都选它呢?因为...

Sa-Token v1.42.0 发布,新增 API Key、TOTP 验证码等能力

Sa-Token是一款免费、开源的轻量级Java权限认证框架,主要解决:登录认证、权限认证、单点登录、OAuth2.0、微服务网关鉴权等一系列权限相关问题。目前最新版本v1.42.0已...

NGINX常规CORS错误解决方案_nginx配置cors

CORS错误CORS(Cross-OriginResourceSharing,跨源资源共享)是一种机制,它使用额外的HTTP头部来告诉浏览器允许一个网页运行的脚本从不同于它自身来源的服务器上请求资...

Spring Boot跨域问题终极解决方案:3种方案彻底告别CORS错误

引言"接口调不通?前端同事又双叒叕在吼跨域了!""明明Postman能通,浏览器却报OPTIONS403?""生产环境跨域配置突然失效,凌晨3点被夺命连环Ca...

SpringBoot 项目处理跨域的四种技巧

上周帮一家公司优化代码时,顺手把跨域的问题解决了,这篇文章,我们聊聊SpringBoot项目处理跨域的四种技巧。1什么是跨域我们先看下一个典型的网站的地址:同源是指:协议、域名、端口号完全相...

Spring Cloud入门看这一篇就够了_spring cloud使用教程

SpringCloud微服务架构演进单体架构垂直拆分分布式SOA面向服务架构微服务架构服务调用方式:RPC,早期的webservice,现在热门的dubbo,都是RPC的典型代表HTTP,HttpCl...

前端程序员:如何用javascript开发一款在线IDE?

前言3年前在AWSre:Invent大会上AWS宣布推出Cloud9,用于在云端编写、运行和调试代码,它可以直接运行在浏览器中,也就是传说中的WebIDE。3年后的今天随着国内云计算的发...