百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

3 个不常见但非常实用的Pandas 使用技巧

liuian 2025-05-14 14:49 32 浏览

在本文中,将演示一些不常见,但是却非常有用的 Pandas 函数。

创建一个示例 DataFrame 来处理。

import numpy as np
import pandas as pd
df = pd.DataFrame({

"date": pd.date_range(start="2021-11-20", periods=100, freq="D"),
"class": ["A","B","C","D"] * 25,
"amount": np.random.randint(10, 100, size=100)})
df.head()

我们创建有一个 3 列 100 行的 DataFrame。 date 列包含 100 个连续日期,class 列包含 4 个以对象数据类型存储的不同值,amount 列包含 10 到 100 之间的随机整数。

1、To_period

在 Pandas 中,操 to_period 函数允许将日期转换为特定的时间间隔。 使用该方法可以获取具有许多不同间隔或周期的日期,例如日、周、月、季度等。

比如针对于时间类型的列,month 方法只返回在许多情况下没有用处的月份的数值,我们无法区分 2020 年 12 月和 2021 年 12 月。但是我们通过使用to_period 函数的参数”M“实现时间序列。

让我们为年月和季度创建新列。

df["month"] = df["date"].dt.to_period("M")
df["quarter"] = df["date"].dt.to_period("Q")
df.head()

还可以查看 DataFrame 中不同的年月和季度值。

df["month"].value_counts()
# output
2021-12 31
2022-01 31
2022-02 27
2021-11 11
Freq: M, Name: month, dtype: int64
--------------------------
df["quarter"].value_counts()
# output
2022Q1 58
2021Q4 42
Freq: Q-DEC, Name: quarter, dtype: int64

2、Cumsum 和 groupby

cumsum 是一个非常有用的 Pandas 函数。 它计算列中值的累积和。 以下是我们通常的使用方式:

df["cumulative_sum"] = df["amount"].cumsum()
df.head()

这样就获得了金额列值的累积总和。 但是它只是全部的总和没有考虑分类。 在某些情况下,我们可能需要分别计算不同类别的累积和。

Pandas中我们只需要按类列对行进行分组,然后应用 cumsum 函数。

df["class_cum_sum"] = df.groupby("class")["amount"].cumsum()

让我们查看 A 类的结果。

df[df["class"]=="A"].head()

类·的累积总和列包含为每个类单独计算的累积值总和。

3、Category数据类型

我们经常需要处理具有有限且固定数量的值的分类数据。 例如在我们的 DataFrame 中,”分类“列具有 4 个不同值的分类变量:A、B、C、D。

默认情况下,该列的数据类型为object。

df.dtypes
# output
date datetime64[ns]
class object
amount int64
month period[M]
quarter period[Q-DEC]
cumulative_sum int64
class_cum_sum int64

Pandas 还有一个“Category”数据类型,它比object数据类型消耗更少的内存。 因此最好尽可能使用category数据类型。

df["class_category"] = df["class"].astype("category")
df.dtypes
# output
date datetime64[ns]
class object
amount int64
month period[M]
quarter period[Q-DEC]
cumulative_sum int64
class_cum_sum int64
class_category category
dtype: object

现在可以比较 class 和 class_category 列的内存消耗。

df.memory_usage()
# output
Index 128
date 800
class 800
amount 800
month 800
quarter 800
cumulative_sum 800
class_cum_sum 800
class_category 304
dtype: int64

class_category 列消耗的内存不到 class 列的一半。 差异是 496 字节,虽然并不多。 但是当我们使用大型数据集时,这样差异就会被放大,这样就变成了节省大量的空间。

作者:Soner Yildirim

相关推荐

Python 中 必须掌握的 20 个核心函数——items()函数

items()是Python字典对象的方法,用于返回字典中所有键值对的视图对象。它提供了对字典完整内容的高效访问和操作。一、items()的基本用法1.1方法签名dict.items()返回:字典键...

Python字典:键值对的艺术_python字典的用法

字典(dict)是Python的核心数据结构之一,与列表同属可变序列,但采用完全不同的存储方式:定义方式:使用花括号{}(列表使用方括号[])存储结构:以键值对(key-valuepair)...

python字典中如何添加键值对_python怎么往字典里添加键

添加键值对首先定义一个空字典1>>>dic={}直接对字典中不存在的key进行赋值来添加123>>>dic['name']='zhangsan'>>...

Spring Boot @ConfigurationProperties 详解与 Nacos 配置中心集成

本文将深入探讨SpringBoot中@ConfigurationProperties的详细用法,包括其语法细节、类型转换、复合类型处理、数据校验,以及与Nacos配置中心的集成方式。通过...

Dubbo概述_dubbo工作原理和机制

什么是RPCRPC是RemoteProcedureCall的缩写翻译为:远程过程调用目标是为了实现两台(多台)计算机\服务器,互相调用方法\通信的解决方案RPC的概念主要定义了两部分内容序列化协...

再见 Feign!推荐一款微服务间调用神器,跟 SpringCloud 绝配

在微服务项目中,如果我们想实现服务间调用,一般会选择Feign。之前介绍过一款HTTP客户端工具Retrofit,配合SpringBoot非常好用!其实Retrofit不仅支持普通的HTTP调用,还能...

SpringGateway 网关_spring 网关的作用

奈非框架简介早期(2020年前)奈非提供的微服务组件和框架受到了很多开发者的欢迎这些框架和SpringCloudAlibaba的对应关系我们要知道Nacos对应Eureka都是注册中心Dubbo...

Sentinel 限流详解-Sentinel与OpenFeign服务熔断那些事

SentinelResource我们使用到过这个注解,我们需要了解的是其中两个属性:value:资源名称,必填且唯一。@SentinelResource(value="test/get&#...

超详细MPLS学习指南 手把手带你实现IP与二层网络的无缝融合

大家晚上好,我是小老虎,今天的文章有点长,但是都是干货,耐心看下去,不会让你失望的哦!随着ASIC技术的发展,路由查找速度已经不是阻碍网络发展的瓶颈。这使得MPLS在提高转发速度方面不再具备明显的优势...

Cisco 尝试配置MPLS-V.P.N从开始到放弃

本人第一次接触这个协议,所以打算分两篇进行学习和记录,本文枯燥预警,配置命令在下一篇全为定义,其也是算我毕业设计的一个小挑战。新概念重点备注为什么选择该协议IPSecVPN都属于传统VPN传统VP...

MFC -- 网络通信编程_mfc编程教程

要买东西的时候,店家常常说,你要是真心买的,还能给你便宜,你看真心就是不怎么值钱。。。----网易云热评一、创建服务端1、新建一个控制台应用程序,添加源文件server2、添加代码框架#includ...

35W快充?2TB存储?iPhone14爆料汇总,不要再漫天吹15了

iPhone14都还没发布,关于iPhone15的消息却已经漫天飞,故加紧整理了关于iPhone14目前已爆出的消息。本文将从机型、刘海、屏幕、存储、芯片、拍照、信号、机身材质、充电口、快充、配色、价...

SpringCloud Alibaba(四) - Nacos 配置中心

1、环境搭建1.1依赖<!--nacos注册中心注解@EnableDiscoveryClient--><dependency><groupI...

Nacos注册中心最全详解(图文全面总结)

Nacos注册中心是微服务的核心组件,也是大厂经常考察的内容,下面我就重点来详解Nacos注册中心@mikechen本篇已收于mikechen原创超30万字《阿里架构师进阶专题合集》里面。微服务注册中...

网络技术领域端口号备忘录,受益匪浅 !

你好,这里是网络技术联盟站,我是瑞哥。网络端口是计算机网络中用于区分不同应用程序和服务的标识符。每个端口号都是一个16位的数字,范围从0到65535。网络端口的主要功能是帮助网络设备(如计算机和服务器...