百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

5分钟了解Pandas的透视表

liuian 2025-01-12 16:25 40 浏览

Pandas 库是用于数据分析的流行 Python 包。 Pandas 中处理数据集时,结构将是二维的,由行和列组成,也称为dataframe。 然而,数据分析的一个重要部分是对这些数据进行分组、汇总、聚合和计算统计的过程。

Pandas 数据透视表提供了一个强大的工具来使用 python 执行这些分析技术。

如果你是excel用户,那么可能已经熟悉数据透视表的概念。 Pandas 数据透视表的工作方式与 Excel 等电子表格工具中的数据透视表非常相似。 数据透视表函数接受一个df,一些参数详细说明了您希望数据采用的形状,并且输出是以数据透视表的形式汇总数据。

在下面的文章中,我将通过代码示例简要介绍 Pandas 数据透视表工具。

数据

在本教程中,我将使用一个名为“autos”的数据集。 该数据集包含有关汽车的一系列特征,例如品牌、价格、马力和每公里油耗等。

数据可以从 openml 下载。 或者可以使用 scikit-learn API 将代码直接导入到代码中,如下所示。

import pandas as pd
import numpy as np
from sklearn.datasets import fetch_openml
X,y = fetch_openml("autos", version=1, as_frame=True, return_X_y=True)
data = X
data['target'] = y

透视表剖析

Pandas 数据透视表具有三个主要元素。 索引指定行级分组,列指定列级分组和值,这些值是您要汇总的数值。

用于创建上述数据透视表的代码如下所示。 在 pivot_table 函数中,我们指定要汇总的df,然后是值、索引和列的列名。 此外,我们指定了我们想要使用的计算类型,我们以计算平均值为例。

pivot = np.round(pd.pivot_table(data, values='price', 
index='num-of-doors', 
columns='fuel-type', 
aggfunc=np.mean),2)

数据透视表可以是多级的。 我们可以使用多个索引和列级分组来创建更强大的数据集摘要。

pivot = np.round(pd.pivot_table(data, values='price', 
index=['num-of-doors', 'body-style'], 
columns=['fuel-type', 'fuel-system'], 
aggfunc=np.mean,
fill_value=0),2)

可视化

Pandas 数据透视表可与 Pandas 绘图功能结合使用,以创建有用的数据可视化。

只需将 .plot() 添加到数据透视表代码的末尾即可创建数据图。 例如,下面的代码创建了一个条形图,显示了按品牌和门数划分的平均汽车价格。

np.round(pd.pivot_table(data, values='price', 
index=['make'], 
columns=['num-of-doors'], 
aggfunc=np.mean,
fill_value=0),2).plot.barh(figsize=(10,7),
title='Mean car price by make and number of doors')

计算和统计

数据透视表函数中的 aggfunc 参数可以进行一项或多项标准计算。

以下代码计算body-style和num-of-doors的平均价格和中位数价格。

np.round(pd.pivot_table(data, values='price', 
index=['body-style'], 
columns=['num-of-doors'], 
aggfunc=[np.mean, np.median],
fill_value=0),2)

要将总计添加到列和行,可以简单地添加参数 margins=True 实现并且您可以使用 margins_name 为总计指定一个名称。

np.round(pd.pivot_table(data, values='price', 
index=['body-style'], 
columns=['num-of-doors'], 
aggfunc=[np.sum],
fill_value=0,
margins=True, margins_name='Total'),2)

样式

在汇总数据时,样式很重要。 我们希望确保数据透视表提供的模式和见解易于阅读和理解。 在本文前面部分使用的数据透视表中,应用了很少的样式,因此,这些表不容易理解或没有视觉上的重点。

我们可以使用另一种 Pandas 方法,称为样式方法,使表格看起来更漂亮,更容易从中得出见解。 下面的代码为此数据透视表中使用的每个值添加了适当的格式和度量单位。 现在更容易区分这两列并理解数据告诉您的内容。

pivot = np.round(pd.pivot_table(data, values=['price', 'horsepower'], 
index=['make'], 
aggfunc=np.mean,
fill_value=0),2)
pivot.style.format({'price':'${0:,.0f}',
'horsepower':'{0:,.0f}hp'})

我们可以使用styler组合不同的格式,并使用 Pandas 内置样式以一种好的方式汇总数据。 在下面显示的代码和数据透视表中,我们按价格从高到低对汽车制造商进行了排序,为数字添加了适当的格式,并添加了一个覆盖两列值的条形图。 这使得很容易得出结论,例如哪种品牌的汽车最贵,以及马力与每种品牌的价格之间的关系。

pivot = np.round(pd.pivot_table(data, values=['price', 'horsepower'], 
index=['make'], 
aggfunc=np.mean,
fill_value=0),2)

pivot = pivot.reindex(pivot['price'].sort_values(ascending=False).index).nlargest(10, 'price')
pivot.style.format({'price':'${0:,.0f}',
'horsepower':'{0:,.0f}hp'}).bar(color='#d65f5f')

总结

数据透视表自 90 年代初开始使用,微软于 1994 年为著名的 Excel 版本“数据透视表”申请了专利。它们今天仍在广泛使用,因为它们是分析数据的强大工具。 Pandas 数据透视表将这个工具从电子表格中带到了 python 用户的手中。

本指南简要介绍了 Pandas 中数据透视表工具的使用。 它旨在为初学者提供一个快速教程来启动和运行,但我建议深入研究 Pandas 文档,其中提供了有关此功能的更深入指南。

作者:Rebecca Vickery

相关推荐

压缩文件查看器(压缩文件查看器密码是多少)

1,打开手机上面的文件管理器,找到要压缩的WPS文件。2,长按一下WPS文件,然后选择要压缩的文件。3,点击右下角的【更多】,选择【压缩】。4,对压缩文件进行保存,压缩完成。扩展资料:wps产品特点1...

键盘哪个是截图键(键盘中的截图键是哪一个)

1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后,可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可。2、按Ctrl+Prtsc键截图...

flash插件电脑版下载(flash插件下载安装)

可以不安装,不安装对电脑也不会有什么影响。友情提示,最好安装,这个也不会占用你多少内存,它是用来播放网页中的flash文件的。如果你不安装,网页中的flash动画就不能正常播放。浏览器也会提示你安装!...

如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
  • 如何打开注册表管理器(如何打开注册表管理器权限)
foxmail邮箱怎么设置(foxmail邮箱设置成功后点完成没反应)

操作步骤/方法1.打开新建界面:2.打开foxmail,在上方导航栏处找到“邮箱(B)”点开此功能,会看到一个下拉菜单,在下拉菜单中找到“新建邮箱账户(N)”。3.建立账户信息:4.点击“新建邮箱账...

电脑自动关机解决办法(电脑自动关机,原来是这里出了问题)

电脑自动关机的原因一、系统文件损坏一个完整的系统受到袭击之后,电脑就不能进行初始化,从而引起自动关机,这也是一个常见的原因。可以选择重装系统的方法来解决问题。电脑自动关机的原因二、CPU太热这是电脑自...

m2固态硬盘安装系统教程(m2固态如何装系统)

加装m.2固态硬盘后,重装系统的操作步骤如下:1、下载U盘启动盘制作工具,下载一个GHOST版最新的WIN7,准备一个足够大的U盘(16G足够了),用U盘启动盘制作工具将其制作成启动U盘;2、插入新电...

运行chkdsk工具(运行chkdsk工具怎么解决)

1、win+R键打开运行,输入cmd。2、输入并回车执行chkdsk/?命令,可以了解chkdsk命令的使用方法。3、比如一些常用的命令,输入并按回车执行chkdskm:/f命令,可以检...

办公软件2007官方下载免费完整版

office字体都变成了英文是因为设置了英文模式。具体的解决步骤如下:我们需要准备的材料分别是:电脑、Word文档。1、首先我们打开Word文档,点击打开左上角的文件中的“选项”。2、然后我们在弹出来...

手机u盘有必要买吗(手机u盘需要什么软件)

网上卖的手机U盘大都是各地的实体数码店进行发货和销售的。他们采用的U盘质量和工厂生产的质量是一致的。并没有什么区别对待。而且由于网上销售费用比较低,所以他在售卖比实体数码店售卖的价格更低,所以这种手机...

电脑系统怎么下载到u盘中(电脑系统win7纯净版下载官方免费版最新版)

下载电脑系统,可以到电脑系统资源下载网站,找到下载页面的下载点,右击下载点,选择迅雷下载,可以把系统文件下载到硬盘里,然后插上U盘,将下载好的系统文件复制到U盘。另一种方法是,将迅雷软件的默认下载路径...

小米主题安装器(红米主题商店app下载安装)

很抱歉,一加九手机无法直接安装小米主题。因为一加九和小米手机使用的是不同的操作系统和主题引擎,它们之间不兼容。一加九使用的是基于Android的OxygenOS操作系统,而小米手机使用的是基于Andr...

hp电脑恢复出厂系统(hp电脑恢复出厂系统操作)

  在开始菜单的【设置】中找到【重置此电脑】的选项即可开始重置恢复到出厂设置;如果您需要整个硬盘格式化,可以选择其中的【删除所有文件】的选项,等待系统设置完成之后会重新进入新系统设置。以下是详细介绍:...

ghost做c盘镜像的步骤(ghost制作镜像步骤)

共9个步骤:1、一般GHOST工具是在PE启动后使用,这个就是PE中GHOST所在路径,找到这个软件并运行。2、界面是英文版本的,因为软件的易操作易学习性,所以这个软件基本没有中文版版本,然后在弹出的...

win10家庭版怎么激活系统(win10家庭版激活步骤)

win10家庭中文版怎么激活1.在win10系统桌面上,点击左下角的开始按钮选择设置选项进入。2.进入设置列表菜单,点击更新和安全选项进入。3.点击激活选项继续下一步操作。4.在弹出输入产品密钥的对话...