基础知识就像是数据分析中的九阳神功，熟练的掌握，加以运用，就可以练就深厚的内力，成为绝顶高手自然不在话下！

为了更好地学习数据分析，我对于数据分析中pandas这一模块里面常用的函数进行了总结。整篇总结，在详尽且通俗易懂的基础上，我力求使其有很强的条理性和逻辑性，所以制作了思维导图，对于每一个值得深究的函数用法，我也会附上官方链接，方便大家继续深入学习。

文章中的所有代码都会有讲解和注释，绝大部分也都会配有运行结果，酱紫的话，整篇总结篇幅量自然不小，所以我分成了上下两篇，这里是上篇。

1. 导入模块

import pandas as pd                    # 这里用到的是pandas和numpy两个模块
import numpy as np

2. 创建数据集并读取

2.1 创建数据集

我构造了一个超市购物的数据集，该数据集属性包括：订单ID号（id）、订单日期（date）、消费金额（money）、订单商品（product）、商品类别（department）、商品产地（origin）。

# 列表和字典均可传入DataFrame，我这里用的是字典传入：
data=pd.DataFrame({
		"id":np.arange(101,111),                                                      # np.arange会自动输出范围内的数据，这里会输出101~110的id号。
		"date":pd.date_range(start="20200310",periods=10),       # 输出日期数据，设置周期为10，注意这里的周期数应该与数据条数相等。
		"money":[5,4,65,-10,15,20,35,16,6,20],                                # 设置一个-10的坑，下面会填
		"product":['苏打水','可乐','牛肉干','老干妈','菠萝','冰激凌','洗面奶','洋葱','牙膏','薯片'],
		"department":['饮料','饮料','零食','调味品','水果',np.nan,'日用品','蔬菜','日用品','零食'],                         # 设置一个空值的坑
		"origin":['China',' China','America','China','Thailand','China','america','China','China','Japan']           # 设置一个america的坑
})
data     #  输出查看数据集

输出结果：

2.2 数据写入和读取

data.to_csv("shopping.csv",index=False)        # index=False表示不加索引，否则会多一行索引

data=pd.read_csv("shopping.csv")

3. 数据查看

3.1 数据集基础信息查询

data.shape                               # 行数列数
data.dtypes                             # 所有列的数据类型
data['id'].dtype                       # 某一列的数据类型
data.ndim                               # 数据维度
data.index                              # 行索引
data.columns                         # 列索引
data.values                            # 对象值

3.2 数据集整体情况查询

data.head()                             # 显示头部几行（默认5行）
data.tail()                               # 显示末尾几行（默认5行）
data.info()                             # 数据集相关信息概览：索引情况、列数据类型、非空值、内存使用情况
data.describe()                     # 快速综合统计结果

4. 数据清洗

4.1 查看异常值

当然，现在这个数据集很小，可以直观地发现异常值，但是在数据集很大的时候，我用下面这种方式查看数据集中是否存在异常值，如果有其他更好的方法，欢迎传授给我。

for i in data:
	 print(i+": "+str(data[i].unique()))          # 查看某一列的唯一值

输出结果：我们发现，该数据集中money存在一个负值，department存在一个空值以及origin存在大小写问题。

4.2 空值处理

4.2.1 空值检测

data.isnull() # 查看整个数据集的空值
data['department'].isnull() # 查看某一列的空值

输出结果：

将空值判断进行汇总，更加直观，ascending默认为True，升序。

data.isnull().sum().sort_values(ascending=False)

输出结果：

>更多关于
pandas.DataFrame.sort_values的用法，戳下方官方链接：
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

4.2.2 空值处理

pandas.DataFrame.fillna（value = None，method = None，inplace = False）

value：用于填充的值，可以是具体值、字典和数组，不能是列表；

method：填充方法，有 ffill 和 bfill 等；

inplace默认无False，如果为True，则将修改此对象上的所有其他视图。

>更多关于pandas.DataFrame.fillna的用法，戳下面官方链接：
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

data['department'].fillna(method="ffill")                           # 填充上一个值，即填充"水果"

输出结果：

data['department'].fillna(method="bfill")                      # 填充下一个值，即填充"日用品"

data['department'].fillna(value="冷冻食品",inplace=True)     # 替换为具体值，并且在原对象值上进行修改

输出结果：

4.3 空格处理

==只针对object类型数据==

for i in data:                                                   # 遍历数据集中的每一列
    if pd.api.types.is_object_dtype(data[i]):     # 如果是object类型的数据，则执行下方代码
        data[i]=data[i].str.strip()                        # 去除空格
data['origin'].unique()                                   # 验证一下

输出结果：array(['China', 'America', 'Thailand', 'america', 'Japan'], dtype=object)

4.4 大小写转换

data['origin'].str.title()              # 将首字母大写
data['origin'].str.capitalize()    # 将首字母大写
data['origin'].str.upper()         # 全部大写
data['origin'].str.lower()         # 全部小写

4.5 数据替换

data['origin'].replace("america","America",inplace=True) # 将第一个值替换为第二个值，inplace默认为False
data['origin']

输出结果：

data['money'].replace(-10,np.nan,inplace=True)                                   # 将负值替换为空值
data['money'].replace(np.nan,data['money'].mean(),inplace=True)      # 将空值替换为均值
data['money']

输出结果：

4.6 数据删除

==方法1==

data1 = data[data.origin != 'American']      #去掉origin为American的行
data1
data2=data[(data != 'Japan').all(1)]            #去掉所有包含Japan的行    不等于Japan的行为真，则返回
data2

==方法2==

data['origin'].drop_duplicates()                     # 默认删除后面出现的重复值，即保留第一次出现的重复值

输出结果：

data['origin'].drop_duplicates(keep='last')       # 删除前面出现的重复值，即保留最后一次出现的重复值

输出结果：

4.7 数据格式转换

data['id'].astype('str')        # 将id列的类型转换为字符串类型。

==常见的数据类型对照==

4.8 更改列名称

data.rename(columns={'id':'ID', 'origin':'产地'})     # 将id列改为ID，将origin改为产地。

输出结果：

思维导图

笔记中如果有错误的地方，欢迎各位小伙伴指正，感谢！

如果需要完整思维导图电子版（PDF、Xmind等）可以留言或者私信！

>参考资料：

> 1. [pandas官网](http://pandas.pydata.org/)

> 2. [pandas用法总结](
https://blog.csdn.net/yiyele/article/details/80605909)

> 3. [Pandas 文本数据方法 capitalize( ) lower( ) upper( )](
https://blog.csdn.net/claroja/article/details/64943601)

> 4. [python【all()全1为1, any()全0为0】](
https://www.jianshu.com/p/a184bddc6fe6)

> 5. [pandas 数据类型转换](
https://www.cnblogs.com/onemorepoint/p/9404753.html)

超全的pandas数据分析常用函数总结:上篇(附赠思维导图)

1. 导入模块

2. 创建数据集并读取

2.1 创建数据集

2.2 数据写入和读取

3. 数据查看

3.1 数据集基础信息查询

3.2 数据集整体情况查询

4. 数据清洗

4.1 查看异常值

4.2 空值处理

4.3 空格处理

4.4 大小写转换

4.5 数据替换

4.6 数据删除

4.7 数据格式转换

4.8 更改列名称

思维导图

相关推荐

Python实现人事自动打卡，再也不会被批评

【验证码逆向专栏】vaptcha 手势验证码逆向分析

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

飞牛OS入门安装遇到问题，如何解决?

系统C盘清理:微信PC端文件清理，扩大C盘可用空间步骤

10款高性能NAS丨双十一必看，轻松搞定虚拟机、Docker、软路由

超全的pandas数据分析常用函数总结:上篇(附赠思维导图)

1. 导入模块

2. 创建数据集并读取

2.1 创建数据集

2.2 数据写入和读取

3. 数据查看

3.1 数据集基础信息查询

3.2 数据集整体情况查询

4. 数据清洗

4.1 查看异常值

4.2 空值处理

4.3 空格处理

4.4 大小写转换

4.5 数据替换

4.6 数据删除

4.7 数据格式转换

4.8 更改列名称

思维导图

相关推荐

Python实现人事自动打卡，再也不会被批评

【验证码逆向专栏】vaptcha 手势验证码逆向分析

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

飞牛OS入门安装遇到问题，如何解决?

系统C盘清理:微信PC端文件清理，扩大C盘可用空间步骤

10款高性能NAS丨双十一必看，轻松搞定虚拟机、Docker、软路由

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄