百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Pandas宝藏函数-concat()

liuian 2025-01-12 16:25 20 浏览

作者:小伍哥

来源:AI入门学习

在数据处理过程中,经常会遇到多个表进行拼接合并的需求,在Pandas中有多个拼接合并的方法,每种方法都有自己擅长的拼接方式,本文对pd.concat()进行详细讲解,希望对你有帮助。pd.concat()函数可以沿着指定的轴将多个dataframe或者series拼接到一起,这一点和另一个常用的pd.merge()函数不同,pd.merge()解决数据库样式的左右拼接,不能解决上下拼接。

一、基本语法

pd.concat(

     objs,      

     axis=0,     

     join='outer',

     ignore_index=False,

     keys=None,      

     levels=None,     

     names=None,      

     verify_integrity=False,     

     copy=True)

二、参数含义

  • objs:Series,DataFrame或Panel对象的序列或映射,如果传递了dict,则排序的键将用作键参数
  • axis:{0,1,...},默认为0,也就是纵向上进行合并。沿着连接的轴。
  • join:{'inner','outer'},默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。
  • ignore_index:boolean,default False。如果为True,请不要使用并置轴上的索引值。结果轴将被标记为0,...,n-1。如果要连接其中并置轴没有有意义的索引信息的对象,这将非常有用。注意,其他轴上的索引值在连接中仍然受到尊重。
  • keys:序列,默认值无。使用传递的键作为最外层构建层次索引。如果为多索引,应该使用元组。
  • levels:序列列表,默认值无。用于构建MultiIndex的特定级别(唯一值)。否则,它们将从键推断。
  • names:list,default无。结果层次索引中的级别的名称。
  • verify_integrity:boolean,default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
  • copy:boolean,default True。如果为False,请勿不必要地复制数据。

三、竖向堆叠

#构建需要的数据表
import pandas as pd
df1 = pd.DataFrame({'A':['A{}'.format(i) for i in range(0,4)],
                    'B':['B{}'.format(i) for i in range(0,4)],
                    'C':['C{}'.format(i) for i in range(0,4)]
                 })


df2 = pd.DataFrame({'A':['A{}'.format(i) for i in range(4,8)],
                    'B':['B{}'.format(i) for i in range(4,8)],
                    'C':['C{}'.format(i) for i in range(4,8)]
                 })
df3 = pd.DataFrame({'A':['A{}'.format(i) for i in range(8,12)],
                    'B':['B{}'.format(i) for i in range(8,12)],
                    'C':['C{}'.format(i) for i in range(8,12)]
                 })
现将表构成list,然后在作为concat的输入
frames = [df1, df2, df3]

result = pd.concat(frames)

 A    B    C

0   A0   B0   C0

1   A1   B1   C1

2   A2   B2   C2

3   A3   B3   C3

0   A4   B4   C4

1   A5   B5   C5

2   A6   B6   C6

3   A7   B7   C7

0   A8   B8   C8

1   A9   B9   C9

2  A10  B10  C10

3  A11  B11  C11

传入也可以是字典

frames = {'df1':df1, 'df2':df2,'df3':df3}

result = pd.concat(frames)

   A    B    C

df1 0   A0   B0   C0

    1   A1   B1   C1

    2   A2   B2   C2

    3   A3   B3   C3

df2 0   A4   B4   C4

    1   A5   B5   C5

    2   A6   B6   C6

    3   A7   B7   C7

df3 0   A8   B8   C8

    1   A9   B9   C9

    2  A10  B10  C10

    3  A11  B11  C11
三、横向拼接

1、axis

当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并

#再构建一个表

df4 = pd.DataFrame({'C':['C{}'.format(i) for i in range(3,9)],

                    'E':['E{}'.format(i) for i in range(3,9)],

                    'F':['F{}'.format(i) for i in range(3,9)]

                 })

pd.concat([df1,df4], axis=1)

     A    B    C   C   E   F

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8

2、join

加上join参数的属性,如果为'inner'得到的是两表的交集,如果是outer,得到的是两表的并集。

#  join='inner' 取交集

pd.concat([df1, df4], axis=1, join='inner')

    A   B   C   C   E   F

0  A0  B0  C0  C3  E3  F3

1  A1  B1  C1  C4  E4  F4

2  A2  B2  C2  C5  E5  F5

3  A3  B3  C3  C6  E6  F6




# join='outer' 和 默认值相同

pd.concat([df1, df4], axis=1, join='outer')

     A    B    C   C   E   F

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8
四、对比append方法

append是series和dataframe的方法,使用它就是默认沿着列进行凭借(axis = 0,列对齐)

df1.append(df2)

    A   B   C

0  A0  B0  C0

1  A1  B1  C1

2  A2  B2  C2

3  A3  B3  C3

0  A4  B4  C4

1  A5  B5  C5

2  A6  B6  C6

3  A7  B7  C7
五、忽略index

如果两个表的index都没有实际含义,使用ignore_index参数,置true,合并的两个表就睡根据列字段对齐,然后合并。最后再重新整理一个新的index。

pd.concat([df1, df4], axis=1, ignore_index=True) 

    0    1    2   3   4   5

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8
六、增加区分组键

前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源

1、可以直接用key参数实现

pd.concat([df1,df2,df3], keys=['x', 'y', 'z'])

 A    B    C

x 0   A0   B0   C0

  1   A1   B1   C1

  2   A2   B2   C2

  3   A3   B3   C3

y 0   A4   B4   C4

  1   A5   B5   C5

  2   A6   B6   C6

  3   A7   B7   C7

z 0   A8   B8   C8

  1   A9   B9   C9

  2  A10  B10  C10

  3  A11  B11  C11

2、传入字典来增加分组键

frames = {'df1':df1, 'df2':df2,'df3':df3}
result = pd.concat(frames)
   A    B    C
df1 0   A0   B0   C0
    1   A1   B1   C1
    2   A2   B2   C2
    3   A3   B3   C3
df2 0   A4   B4   C4
    1   A5   B5   C5
    2   A6   B6   C6
    3   A7   B7   C7
df3 0   A8   B8   C8
    1   A9   B9   C9
    2  A10  B10  C10
    3  A11  B11  C11

七、加入新的行

1、列字段相同的加入

append方法可以将 series 和 字典就够的数据作为dataframe的新一行插入。

s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])

df1.append(s2, ignore_index=True)

  A   B   C    D

0  A0  B0  C0  NaN

1  A1  B1  C1  NaN

2  A2  B2  C2  NaN

3  A3  B3  C3  NaN

4  X0  X1  X2   X3

2、列字段不同的加入

如果遇到两张表的列字段本来就不一样,但又想将两个表合并,其中无效的值用nan来表示。那么可以使用ignore_index来实现。

dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},

         {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]

df1.append(dicts, ignore_index=True)

 A   B   C    X    Y

0  A0  B0  C0  NaN  NaN

1  A1  B1  C1  NaN  NaN

2  A2  B2  C2  NaN  NaN

3  A3  B3  C3  NaN  NaN

4   1   2   3  4.0  NaN

5   5   6   7  NaN  8.0


相关推荐

2023年最新微信小程序抓包教程(微信小程序 抓包)

声明:本公众号大部分文章来自作者日常学习笔记,部分文章经作者授权及其他公众号白名单转载。未经授权严禁转载。如需转载,请联系开百。请不要利用文章中的相关技术从事非法测试。由此产生的任何不良后果与文...

测试人员必看的软件测试面试文档(软件测试面试怎么说)

前言又到了毕业季,我们将会迎来许多需要面试的小伙伴,在这里呢笔者给从事软件测试的小伙伴准备了一份顶级的面试文档。1、什么是bug?bug由哪些字段(要素)组成?1)将在电脑系统或程序中,隐藏着的...

复活,视频号一键下载,有手就会,长期更新(2023-12-21)

视频号下载的话题,也算是流量密码了。但也是比较麻烦的问题,频频失效不说,使用方法也难以入手。今天,奶酪就来讲讲视频号下载的新方案,更关键的是,它们有手就会有用,最后一个方法万能。实测2023-12-...

新款HTTP代理抓包工具Proxyman(界面美观、功能强大)

不论是普通的前后端开发人员,还是做爬虫、逆向的爬虫工程师和安全逆向工程,必不可少会使用的一种工具就是HTTP抓包工具。说到抓包工具,脱口而出的肯定是浏览器F12开发者调试界面、Charles(青花瓷)...

使用Charles工具对手机进行HTTPS抓包

本次用到的工具:Charles、雷电模拟器。比较常用的抓包工具有fiddler和Charles,今天讲Charles如何对手机端的HTTS包进行抓包。fiddler抓包工具不做讲解,网上有很多fidd...

苹果手机下载 TikTok 旧版本安装包教程

目前苹果手机能在国内免拔卡使用的TikTok版本只有21.1.0版本,而AppStore是高于21.1.0版本,本次教程就是解决如何下载TikTok旧版本安装包。前期准备准备美区...

【0基础学爬虫】爬虫基础之抓包工具的使用

大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬...

防止应用调试分析IP被扫描加固实战教程

防止应用调试分析IP被扫描加固实战教程一、概述在当今数字化时代,应用程序的安全性已成为开发者关注的焦点。特别是在应用调试过程中,保护应用的网络安全显得尤为重要。为了防止应用调试过程中IP被扫描和潜在的...

一文了解 Telerik Test Studio 测试神器

1.简介TelerikTestStudio(以下称TestStudio)是一个易于使用的自动化测试工具,可用于Web、WPF应用的界面功能测试,也可以用于API测试,以及负载和性能测试。Te...

HLS实战之Wireshark抓包分析(wireshark抓包总结)

0.引言Wireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接...

信息安全之HTTPS协议详解(加密方式、证书原理、中间人攻击 )

HTTPS协议详解(加密方式、证书原理、中间人攻击)HTTPS协议的加密方式有哪些?HTTPS证书的原理是什么?如何防止中间人攻击?一:HTTPS基本介绍:1.HTTPS是什么:HTTPS也是一个...

Fiddler 怎么抓取手机APP:抖音、小程序、小红书数据接口

使用Fiddler抓取移动应用程序(APP)的数据接口需要进行以下步骤:首先,确保手机与计算机连接在同一网络下。在计算机上安装Fiddler工具,并打开它。将手机的代理设置为Fiddler代理。具体方...

python爬虫教程:教你通过 Fiddler 进行手机抓包

今天要说说怎么在我们的手机抓包有时候我们想对请求的数据或者响应的数据进行篡改怎么做呢?我们经常在用的手机手机里面的数据怎么对它抓包呢?那么...接下来就是学习python的正确姿势我们要用到一款强...

Fiddler入门教程全家桶,建议收藏

学习Fiddler工具之前,我们先了解一下Fiddler工具的特点,Fiddler能做什么?如何使用Fidder捕获数据包、修改请求、模拟客户端向服务端发送请求、实施越权的安全性测试等相关知识。本章节...

fiddler如何抓取https请求实现手机抓包(100%成功解决)

一、HTTP协议和HTTPS协议。(1)HTTPS协议=HTTP协议+SSL协议,默认端口:443(2)HTTP协议(HyperTextTransferProtocol):超文本传输协议。默认...