百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

超全的pandas数据分析常用函数总结:上篇(附赠思维导图)

liuian 2025-02-16 21:58 22 浏览

基础知识就像是数据分析中的九阳神功,熟练的掌握,加以运用,就可以练就深厚的内力,成为绝顶高手自然不在话下!

为了更好地学习数据分析,我对于数据分析中pandas这一模块里面常用的函数进行了总结。整篇总结,在详尽且通俗易懂的基础上,我力求使其有很强的条理性和逻辑性,所以制作了思维导图,对于每一个值得深究的函数用法,我也会附上官方链接,方便大家继续深入学习。

文章中的所有代码都会有讲解和注释,绝大部分也都会配有运行结果,酱紫的话,整篇总结篇幅量自然不小,所以我分成了上下两篇,这里是上篇。

1. 导入模块

import pandas as pd                    # 这里用到的是pandas和numpy两个模块
import numpy as np

2. 创建数据集并读取

2.1 创建数据集

我构造了一个超市购物的数据集,该数据集属性包括:订单ID号(id)、订单日期(date)、消费金额(money)、订单商品(product)、商品类别(department)、商品产地(origin)。

# 列表和字典均可传入DataFrame,我这里用的是字典传入:
data=pd.DataFrame({
		"id":np.arange(101,111),                                                      # np.arange会自动输出范围内的数据,这里会输出101~110的id号。
		"date":pd.date_range(start="20200310",periods=10),       # 输出日期数据,设置周期为10,注意这里的周期数应该与数据条数相等。
		"money":[5,4,65,-10,15,20,35,16,6,20],                                # 设置一个-10的坑,下面会填
		"product":['苏打水','可乐','牛肉干','老干妈','菠萝','冰激凌','洗面奶','洋葱','牙膏','薯片'],
		"department":['饮料','饮料','零食','调味品','水果',np.nan,'日用品','蔬菜','日用品','零食'],                         # 设置一个空值的坑
		"origin":['China',' China','America','China','Thailand','China','america','China','China','Japan']           # 设置一个america的坑
})
data     #  输出查看数据集

输出结果:

2.2 数据写入和读取

data.to_csv("shopping.csv",index=False)        # index=False表示不加索引,否则会多一行索引
data=pd.read_csv("shopping.csv")

3. 数据查看

3.1 数据集基础信息查询

data.shape                               # 行数列数
data.dtypes                             # 所有列的数据类型
data['id'].dtype                       # 某一列的数据类型
data.ndim                               # 数据维度
data.index                              # 行索引
data.columns                         # 列索引
data.values                            # 对象值

3.2 数据集整体情况查询

data.head()                             # 显示头部几行(默认5行)
data.tail()                               # 显示末尾几行(默认5行)
data.info()                             # 数据集相关信息概览:索引情况、列数据类型、非空值、内存使用情况
data.describe()                     # 快速综合统计结果

4. 数据清洗

4.1 查看异常值

当然,现在这个数据集很小,可以直观地发现异常值,但是在数据集很大的时候,我用下面这种方式查看数据集中是否存在异常值,如果有其他更好的方法,欢迎传授给我。

for i in data:
	 print(i+": "+str(data[i].unique()))          # 查看某一列的唯一值

输出结果:我们发现,该数据集中money存在一个负值,department存在一个空值以及origin存在大小写问题。

4.2 空值处理

4.2.1 空值检测

data.isnull() # 查看整个数据集的空值
data['department'].isnull() # 查看某一列的空值

输出结果:

将空值判断进行汇总,更加直观,ascending默认为True,升序。

data.isnull().sum().sort_values(ascending=False)

输出结果:

>更多关于
pandas.DataFrame.sort_values的用法,戳下方官方链接:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

4.2.2 空值处理

pandas.DataFrame.fillna(value = None,method = None,inplace = False)

  • value:用于填充的值,可以是具体值、字典和数组,不能是列表;
  • method:填充方法,有 ffill 和 bfill 等;
  • inplace默认无False,如果为True,则将修改此对象上的所有其他视图。


>更多关于pandas.DataFrame.fillna的用法,戳下面官方链接:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

data['department'].fillna(method="ffill")                           # 填充上一个值,即填充"水果"

输出结果:

data['department'].fillna(method="bfill")                      # 填充下一个值,即填充"日用品"
data['department'].fillna(value="冷冻食品",inplace=True)     # 替换为具体值,并且在原对象值上进行修改

输出结果:

4.3 空格处理

==只针对object类型数据==

for i in data:                                                   # 遍历数据集中的每一列
    if pd.api.types.is_object_dtype(data[i]):     # 如果是object类型的数据,则执行下方代码
        data[i]=data[i].str.strip()                        # 去除空格
data['origin'].unique()                                   # 验证一下

输出结果:array(['China', 'America', 'Thailand', 'america', 'Japan'], dtype=object)

4.4 大小写转换

data['origin'].str.title()              # 将首字母大写
data['origin'].str.capitalize()    # 将首字母大写
data['origin'].str.upper()         # 全部大写
data['origin'].str.lower()         # 全部小写

4.5 数据替换

data['origin'].replace("america","America",inplace=True) # 将第一个值替换为第二个值,inplace默认为False
data['origin']

输出结果:

data['money'].replace(-10,np.nan,inplace=True)                                   # 将负值替换为空值
data['money'].replace(np.nan,data['money'].mean(),inplace=True)      # 将空值替换为均值
data['money']

输出结果:

4.6 数据删除

==方法1==

data1 = data[data.origin != 'American']      #去掉origin为American的行
data1
data2=data[(data != 'Japan').all(1)]            #去掉所有包含Japan的行    不等于Japan的行为真,则返回
data2

==方法2==

data['origin'].drop_duplicates()                     # 默认删除后面出现的重复值,即保留第一次出现的重复值

输出结果:

data['origin'].drop_duplicates(keep='last')       # 删除前面出现的重复值,即保留最后一次出现的重复值

输出结果:

4.7 数据格式转换

data['id'].astype('str')        # 将id列的类型转换为字符串类型。

==常见的数据类型对照==

4.8 更改列名称

data.rename(columns={'id':'ID', 'origin':'产地'})     # 将id列改为ID,将origin改为产地。

输出结果:

思维导图

笔记中如果有错误的地方,欢迎各位小伙伴指正,感谢!

如果需要完整思维导图电子版(PDF、Xmind等)可以留言或者私信!

>参考资料:

> 1. [pandas官网](http://pandas.pydata.org/)

> 2. [pandas用法总结](
https://blog.csdn.net/yiyele/article/details/80605909)

> 3. [Pandas 文本数据方法 capitalize( ) lower( ) upper( )](
https://blog.csdn.net/claroja/article/details/64943601)

> 4. [python【all()全1为1, any()全0为0】](
https://www.jianshu.com/p/a184bddc6fe6)

> 5. [pandas 数据类型转换](
https://www.cnblogs.com/onemorepoint/p/9404753.html)

相关推荐

教你把多个视频合并成一个视频的方法

一.情况介绍当你有一个m3u8文件和一个目录,目录中有连续的视频片段,这些片段可以连成一段完整的视频。m3u8文件打开后像这样:m3u8文件,可以理解为播放列表,里面是播放视频片段的顺序。视频片段像这...

零代码编程:用kimichat合并一个文件夹下的多个文件

一个文件夹里面有很多个srt字幕文件,如何借助kimichat来自动批量合并呢?在kimichat对话框中输入提示词:你是一个Python编程专家,完成如下的编程任务:这个文件夹:D:\downloa...

Java APT_java APT 生成代码

JavaAPT(AnnotationProcessingTool)是一种在Java编译阶段处理注解的工具。APT会在编译阶段扫描源代码中的注解,并根据这些注解生成代码、资源文件或其他输出,...

Unit Runtime:一键运行 AI 生成的代码,或许将成为你的复制 + 粘贴神器

在我们构建了UnitMesh架构之后,以及对应的demo之后,便着手于实现UnitMesh架构。于是,我们就继续开始UnitRuntime,以用于直接运行AI生成的代码。PS:...

挣脱臃肿的枷锁:为什么说Vert.x是Java开发者手中的一柄利剑?

如果你是一名Java开发者,那么你的职业生涯几乎无法避开Spring。它如同一位德高望重的老国王,统治着企业级应用开发的大片疆土。SpringBoot的约定大于配置、SpringCloud的微服务...

五年后,谷歌还在全力以赴发展 Kotlin

作者|FredericLardinois译者|Sambodhi策划|Tina自2017年谷歌I/O全球开发者大会上,谷歌首次宣布将Kotlin(JetBrains开发的Ja...

kotlin和java开发哪个好,优缺点对比

Kotlin和Java都是常见的编程语言,它们有各自的优缺点。Kotlin的优点:简洁:Kotlin程序相对于Java程序更简洁,可以减少代码量。安全:Kotlin在类型系统和空值安全...

移动端架构模式全景解析:从MVC到MVVM,如何选择最佳设计方案?

掌握不同架构模式的精髓,是构建可维护、可测试且高效移动应用的关键。在移动应用开发中,选择合适的软件架构模式对项目的可维护性、可测试性和团队协作效率至关重要。随着应用复杂度的增加,一个良好的架构能够帮助...

颜值非常高的XShell替代工具Termora,不一样的使用体验!

Termora是一款面向开发者和运维人员的跨平台SSH终端与文件管理工具,支持Windows、macOS及Linux系统,通过一体化界面简化远程服务器管理流程。其核心定位是解决多平台环境下远程连接、文...

预处理的底层原理和预处理编译运行异常的解决方案

若文章对您有帮助,欢迎关注程序员小迷。助您在编程路上越走越好![Mac-10.7.1LionIntel-based]Q:预处理到底干了什么事情?A:预处理,顾名思义,预先做的处理。源代码中...

为“架构”再建个模:如何用代码描述软件架构?

在架构治理平台ArchGuard中,为了实现对架构的治理,我们需要代码+模型描述所要处理的内容和数据。所以,在ArchGuard中,我们有了代码的模型、依赖的模型、变更的模型等,剩下的两个...

深度解析:Google Gemma 3n —— 移动优先的轻量多模态大模型

2025年6月,Google正式发布了Gemma3n,这是一款能够在2GB内存环境下运行的轻量级多模态大模型。它延续了Gemma家族的开源基因,同时在架构设计上大幅优化,目标是让...

比分网开发技术栈与功能详解_比分网有哪些

一、核心功能模块一个基本的比分网通常包含以下模块:首页/总览实时比分看板:滚动展示所有正在进行的比赛,包含比分、比赛时间、红黄牌等关键信息。热门赛事/焦点战:突出显示重要的、关注度高的比赛。赛事导航...

设计模式之-生成器_一键生成设计

一、【概念定义】——“分步构建复杂对象,隐藏创建细节”生成器模式(BuilderPattern):一种“分步构建型”创建型设计模式,它将一个复杂对象的构建与其表示分离,使得同样的构建过程可以创建...

构建第一个 Kotlin Android 应用_kotlin简介

第一步:安装AndroidStudio(推荐IDE)AndroidStudio是官方推荐的Android开发集成开发环境(IDE),内置对Kotlin的完整支持。1.下载And...