百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

5分钟了解Pandas的透视表

liuian 2025-01-12 16:25 30 浏览

Pandas 库是用于数据分析的流行 Python 包。 Pandas 中处理数据集时,结构将是二维的,由行和列组成,也称为dataframe。 然而,数据分析的一个重要部分是对这些数据进行分组、汇总、聚合和计算统计的过程。

Pandas 数据透视表提供了一个强大的工具来使用 python 执行这些分析技术。

如果你是excel用户,那么可能已经熟悉数据透视表的概念。 Pandas 数据透视表的工作方式与 Excel 等电子表格工具中的数据透视表非常相似。 数据透视表函数接受一个df,一些参数详细说明了您希望数据采用的形状,并且输出是以数据透视表的形式汇总数据。

在下面的文章中,我将通过代码示例简要介绍 Pandas 数据透视表工具。

数据

在本教程中,我将使用一个名为“autos”的数据集。 该数据集包含有关汽车的一系列特征,例如品牌、价格、马力和每公里油耗等。

数据可以从 openml 下载。 或者可以使用 scikit-learn API 将代码直接导入到代码中,如下所示。

import pandas as pd
import numpy as np
from sklearn.datasets import fetch_openml
X,y = fetch_openml("autos", version=1, as_frame=True, return_X_y=True)
data = X
data['target'] = y

透视表剖析

Pandas 数据透视表具有三个主要元素。 索引指定行级分组,列指定列级分组和值,这些值是您要汇总的数值。

用于创建上述数据透视表的代码如下所示。 在 pivot_table 函数中,我们指定要汇总的df,然后是值、索引和列的列名。 此外,我们指定了我们想要使用的计算类型,我们以计算平均值为例。

pivot = np.round(pd.pivot_table(data, values='price', 
index='num-of-doors', 
columns='fuel-type', 
aggfunc=np.mean),2)

数据透视表可以是多级的。 我们可以使用多个索引和列级分组来创建更强大的数据集摘要。

pivot = np.round(pd.pivot_table(data, values='price', 
index=['num-of-doors', 'body-style'], 
columns=['fuel-type', 'fuel-system'], 
aggfunc=np.mean,
fill_value=0),2)

可视化

Pandas 数据透视表可与 Pandas 绘图功能结合使用,以创建有用的数据可视化。

只需将 .plot() 添加到数据透视表代码的末尾即可创建数据图。 例如,下面的代码创建了一个条形图,显示了按品牌和门数划分的平均汽车价格。

np.round(pd.pivot_table(data, values='price', 
index=['make'], 
columns=['num-of-doors'], 
aggfunc=np.mean,
fill_value=0),2).plot.barh(figsize=(10,7),
title='Mean car price by make and number of doors')

计算和统计

数据透视表函数中的 aggfunc 参数可以进行一项或多项标准计算。

以下代码计算body-style和num-of-doors的平均价格和中位数价格。

np.round(pd.pivot_table(data, values='price', 
index=['body-style'], 
columns=['num-of-doors'], 
aggfunc=[np.mean, np.median],
fill_value=0),2)

要将总计添加到列和行,可以简单地添加参数 margins=True 实现并且您可以使用 margins_name 为总计指定一个名称。

np.round(pd.pivot_table(data, values='price', 
index=['body-style'], 
columns=['num-of-doors'], 
aggfunc=[np.sum],
fill_value=0,
margins=True, margins_name='Total'),2)

样式

在汇总数据时,样式很重要。 我们希望确保数据透视表提供的模式和见解易于阅读和理解。 在本文前面部分使用的数据透视表中,应用了很少的样式,因此,这些表不容易理解或没有视觉上的重点。

我们可以使用另一种 Pandas 方法,称为样式方法,使表格看起来更漂亮,更容易从中得出见解。 下面的代码为此数据透视表中使用的每个值添加了适当的格式和度量单位。 现在更容易区分这两列并理解数据告诉您的内容。

pivot = np.round(pd.pivot_table(data, values=['price', 'horsepower'], 
index=['make'], 
aggfunc=np.mean,
fill_value=0),2)
pivot.style.format({'price':'${0:,.0f}',
'horsepower':'{0:,.0f}hp'})

我们可以使用styler组合不同的格式,并使用 Pandas 内置样式以一种好的方式汇总数据。 在下面显示的代码和数据透视表中,我们按价格从高到低对汽车制造商进行了排序,为数字添加了适当的格式,并添加了一个覆盖两列值的条形图。 这使得很容易得出结论,例如哪种品牌的汽车最贵,以及马力与每种品牌的价格之间的关系。

pivot = np.round(pd.pivot_table(data, values=['price', 'horsepower'], 
index=['make'], 
aggfunc=np.mean,
fill_value=0),2)

pivot = pivot.reindex(pivot['price'].sort_values(ascending=False).index).nlargest(10, 'price')
pivot.style.format({'price':'${0:,.0f}',
'horsepower':'{0:,.0f}hp'}).bar(color='#d65f5f')

总结

数据透视表自 90 年代初开始使用,微软于 1994 年为著名的 Excel 版本“数据透视表”申请了专利。它们今天仍在广泛使用,因为它们是分析数据的强大工具。 Pandas 数据透视表将这个工具从电子表格中带到了 python 用户的手中。

本指南简要介绍了 Pandas 中数据透视表工具的使用。 它旨在为初学者提供一个快速教程来启动和运行,但我建议深入研究 Pandas 文档,其中提供了有关此功能的更深入指南。

作者:Rebecca Vickery

相关推荐

Python生态下的微服务框架FastAPI

FastAPI是什么FastAPI是一个用于构建API的web框架,使用Python并基于标准的Python类型提示。与flask相比有什么优势高性能:得益于uvloop,可达到与...

SpringBoot:如何解决跨域问题,详细方案和示例代码

跨域问题在前端开发中经常会遇到,特别是在使用SpringBoot框架进行后端开发时。解决跨域问题的方法有很多,我将为你提供一种详细的方案,包含示例代码。首先,让我们了解一下什么是跨域问题。跨域是指在...

使用Nginx轻松搞定跨域问题_使用nginx轻松搞定跨域问题的方法

跨域问题(Cross-OriginResourceSharing,简称CORS)是由浏览器的同源策略引起的。同源策略指的是浏览器限制来自不同源(协议、域名、端口)的JavaScript对资源的...

spring boot过滤器与拦截器的区别

有小伙伴使用springboot开发多年,但是对于过滤器和拦截器的主要区别依然傻傻分不清。今天就对这两个概念做一个全面的盘点。定义与作用范围过滤器(Filter):过滤器是一种可以动态地拦截、处理和...

nginx如何配置跨域_nginx配置跨域访问

要在Nginx中配置跨域,可以使用add_header指令来添加Access-Control-Allow-*头信息,如下所示:location/api{if($reques...

解决跨域问题的8种方法,含网关、Nginx和SpringBoot~

跨域问题是浏览器为了保护用户的信息安全,实施了同源策略(Same-OriginPolicy),即只允许页面请求同源(相同协议、域名和端口)的资源,当JavaScript发起的请求跨越了同源策略,...

图解CORS_图解数学

CORS的全称是Cross-originresourcesharing,中文名称是跨域资源共享,是一种让受限资源能够被其他域名的页面访问的一种机制。下图描述了CORS机制。一、源(Orig...

CORS 幕后实际工作原理_cors的工作原理

跨域资源共享(CORS)是Web浏览器实施的一项重要安全机制,用于保护用户免受潜在恶意脚本的攻击。然而,这也是开发人员(尤其是Web开发新手)感到沮丧的常见原因。小编在此将向大家解释它存在...

群晖无法拉取Docker镜像?最稳定的方法:搭建自己的加速服务!

因为未知的原因,国内的各大DockerHub镜像服务器无法使用,导致在使用群晖时无法拉取镜像构建容器。网上大部分的镜像加速服务都是通过Cloudflare(CF)搭建的,为什么都选它呢?因为...

Sa-Token v1.42.0 发布,新增 API Key、TOTP 验证码等能力

Sa-Token是一款免费、开源的轻量级Java权限认证框架,主要解决:登录认证、权限认证、单点登录、OAuth2.0、微服务网关鉴权等一系列权限相关问题。目前最新版本v1.42.0已...

NGINX常规CORS错误解决方案_nginx配置cors

CORS错误CORS(Cross-OriginResourceSharing,跨源资源共享)是一种机制,它使用额外的HTTP头部来告诉浏览器允许一个网页运行的脚本从不同于它自身来源的服务器上请求资...

Spring Boot跨域问题终极解决方案:3种方案彻底告别CORS错误

引言"接口调不通?前端同事又双叒叕在吼跨域了!""明明Postman能通,浏览器却报OPTIONS403?""生产环境跨域配置突然失效,凌晨3点被夺命连环Ca...

SpringBoot 项目处理跨域的四种技巧

上周帮一家公司优化代码时,顺手把跨域的问题解决了,这篇文章,我们聊聊SpringBoot项目处理跨域的四种技巧。1什么是跨域我们先看下一个典型的网站的地址:同源是指:协议、域名、端口号完全相...

Spring Cloud入门看这一篇就够了_spring cloud使用教程

SpringCloud微服务架构演进单体架构垂直拆分分布式SOA面向服务架构微服务架构服务调用方式:RPC,早期的webservice,现在热门的dubbo,都是RPC的典型代表HTTP,HttpCl...

前端程序员:如何用javascript开发一款在线IDE?

前言3年前在AWSre:Invent大会上AWS宣布推出Cloud9,用于在云端编写、运行和调试代码,它可以直接运行在浏览器中,也就是传说中的WebIDE。3年后的今天随着国内云计算的发...