python数据分析:介绍pandas库的数据类型Series和DataFrame
liuian 2025-01-10 15:14 15 浏览
安装pandas
pip install pandas -i https://mirrors.aliyun.com/pypi/simple/
使用pandas
直接导入即可 import pandas as pd
pandas的数据结构
pandas提供了两种主要的数据结构:Series 和 DataFrame,类似于python提供list列表,dict字典,tuple元组等数据类型用于存储数据。
1. Series
Series 是一种一维的数组(类似于 Python 的列表),可以存储任何数据类型(整数、字符串、浮点数、Python对象等)。Series 是一种带有标签的数据结构,每个数据点都有一个索引。
创建 Series
创建的series结构,默认索引从0开始(像list的索引一样),但是可以指定索引。
1)从列表创建Series
import pandas as pd
data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)
2)从字典创建 Series,键作为索引
import pandas as pd
data_dict = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(data_dict)
print(s)
3)指定索引创建Series
import pandas as pd
data = [1, 2, 3, 4, 5]
s = pd.Series(data, index=['a', 'b', 'c', 'd', 'e'])
print(s)
Series的基本属性
- values:返回 Series 中的数据值。
- index:返回 Series 中的索引。
- dtype:返回 Series 中数据的数据类型。
- name:返回或设置 Series 的名称。
举例:定义一个series接口数据并指定索引和名称
data = [[1, 2, 3], [4, 5,6]]
s = pd.Series(data, name='一维数组',index=['a', 'b'])
print(f'值:{s.values}')
print(f'索引:{s.index}')
print(f'数据类型 {s.dtype}')
print(f'名称 {s.name}')
Series的函数
1)value_counts函数:对Series对象进行计数
- normalize:默认为False。设置为True,则函数返回每个值占总数的比例,而不是计数。
- sort:是否对结果进行排序。
- ascending:默认为False,计数结果按降序排列;设置为True,则按升序对计数进行排序。
- dropna:默认为True,表示从计数中排除NaN值。设置为False,则包含NaN值的计数也会被纳入统计。
- bins:整数、字符串或序列。如果给定,则返回的Series将包含给定数量的bin(箱)的计数。这个参数主要用于数值型数据的分箱处理,我们通常使用cut()函数进行分箱。
举例:
1)定义Series数据,计数后按照升序排列:
data_list = ['A', 'C', 'B', 'A', 'A', 'C', 'B', 'C','C']
se = pd.Series(data_list)
print(se.value_counts(ascending=True))
结果:
B 2
A 3
C 4
Name: count, dtype: int64
2)对数值型Series对象进行分箱后统计计数
data_list = [1, 2,3,4,3,2,1,2,4,5,7,8,4,3,15,10]
se = pd.Series(data_list)
#bins=3 自动分了三个数据范围
print(se.value_counts(ascending=True,bins=3))
结果:
(10.333, 15.0] 1
(5.667, 10.333] 3
(0.985, 5.667] 12
Name: count, dtype: int64
3)使用pandas.cut()函数进行分箱处理
data_list = [1, 2,3,4,3,2,1,2,4,5,7,8,4,3,15,10]
# 指定箱子的边界
bins = [0, 2, 4, 6, 8]
labels = ['0-2', '2-4', '4-6', '6-8']
cut_data = pd.cut(data_list, bins=bins, labels=labels)
# 使用value_counts()函数对分箱后的数据进行计数
counts = cut_data.value_counts()
# 打印结果
print(counts)
结果:
0-2 5
2-4 6
4-6 1
6-8 2
Name: count, dtype: int64
2. DataFrame
DataFrame 是一个二维的表格数据结构,具有标记的轴(行和列)。其中每一列相当于一个Series。
创建 DataFrame
和Series结构一样默认索引从0开始,当然也可以指定索引。
1)从字典创建 DataFrame,字典的键是列名
import pandas as pd
data_dict = {
'name': ['lilei', 'lili', 'wanglei'],
'age': [25, 30, 35],
'city': ['shanghai', 'shenzhen', 'nanjing']}
df = pd.DataFrame(data_dict)
print(df)
2)从列表的列表创建DataFrame
data = [
['lilei', 25],
['lili', 30],
['wanglei', 35]
]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
3)从Numpy 数组创建DataFrame并指定列名和索引
import numpy as np
data = np.array([[1, 2], [3, 4], [5, 6]])
df = pd.DataFrame(data, columns=['A', 'B'],index=['a','b','c'])
print(df)
Series和DataFrame数据的常用函数和功能
head(n):返回前 n 个元素,默认返回前5个
tail(n):返回后 n 个元素,默认返回后5个。
unique():返回 Series 中的唯一值(去掉重复的值)。
isnull():返回一个布尔 Series,指示每个值是否为 NaN。
dropna():删除所有 NaN值(numpy.nan)或者None值,返回一个新的数据
举例:定义一个series结构数据,打印下上面方法获取的数据
data = [1, 2, 3, 4, 5,[6,7],[8],None,{'a':10}]
s = pd.Series(data)
print(f'前3个元素\n {s.head(3)}')
print(f'后3个元素\n {s.tail(3)}')
print(f'判断是否为null\n {s.isnull()}')
举例:定义一个series结构数据,打印删除NaN值后的数据
import numpy as np
data = [1, 2, 3, 4, 5,None,np.nan]
s = pd.Series(data)
new_s =s.dropna()
print(f'删除NaN值\n {new_s}')
举例:定义一个series结构数据,打印去重后的数据
data = [1, 2, 3, 4, 5,4,5,6]
s = pd.Series(data)
print(f'唯一值 {s.unique()}')
to_dict函数:将DataFrame数据转换为字典
字典的键和值对应的是列名和列值
举例:读取csv文件内容,并转换为字典
import pandas as pd
dataframe = pd.read_csv("1.csv")
print(dataframe)
#将DataFrame数据格式转换为字典
print(dataframe.to_dict())
结果如下:
选择列数据
import pandas as pd
dataframe = pd.read_csv("1.csv")
- 选择某一列数据
#选择Nmae这一列
print(dataframe['zx` Name'])
#选择Age这一列
print(dataframe.age)
#通过Ioc函数选择Name这一列
print(dataframe.loc[:,['Name']])
返回的某一列的数据类型是一个Series类型,对某列数据可以做循环打印该列的值。
for i in dataframe.Name:
print(i)
- 选择多列
#选择Nmae,age这两列
print(dataframe[['Name','age']])
#通过loc()函数选择Name和age两列
print(dataframe.loc[:,['Name','age']])
选择行数据
使用方式类似于list的切片操作
#取前3行数据
print(dataframe[0:3])
#取倒数第4行和第5行
print(dataframe[-4:-2])
#取前10行中每2行取1个
print(dataframe[0:10:2])
通过iIoc函数获取多行数据
#取前10行数据
print(dataframe.iloc[:10,:])
选择指定的行和列数据
通过Ioc函数取某些行和列数据
print(dataframe.loc[0:3,['Name']])
print(dataframe.loc[0:3,['Name','age']])
按条件选择
举例:筛选age列大于25的数据
print(dataframe[dataframe.age > 25])
举例:筛选性别为男的数据
print(dataframe[dataframe.sex == 'man'])
举例: 筛选索引等于0的数据
print(dataframe[dataframe.index == 0])
举例:筛选性别为男并age大于25的数据
print(dataframe[(dataframe.sex == 'man') & (dataframe.age > 25)])
举例:筛选年龄大于25的Name这一列的数据
print(dataframe[dataframe.age > 25].loc[:,['Name']])
sort_values函数:使用该函数进行排序
参数介绍
- by:传入单个字符串或字符串列表(1个或者多个列名),表示按照列名进行排序。
- axis:默认为0。0表示按列的值排序,1表示按行的值排序;一般不使用
- ascending:布尔值或布尔值列表,默认为True。True表示升序排序,False表示降序排序。如果是一个列表,则列表中的每个元素对应by参数中每个列的排序顺序。
- inplace:布尔值,默认为False。如果为True,则直接修改原DataFrame并返回None;如果为False,则返回一个新的排序后的DataFrame副本。
- kind:排序算法的选择,默认为'quicksort'。其他选项包括'mergesort'和'heapsort'。对于大数据集,'quicksort'通常是最快的,但不一定是最稳定的。
- na_position:{'first', 'last'},默认为'last'。表示缺失值(NaN)应该被放在排序后的数组的开始还是结束。
- ignore_index:布尔值,默认为False。如果为True,则结果DataFrame的索引将被重置为默认的整数索引。
测试代码:
1)按列排序(升序)
print(dataframe.sort_values(by='Name'))
print(dataframe.sort_values(by=['Name','age']))
2)按列排序(倒序)
print(dataframe.sort_values(by='age',ascending=False))
3)不同列排列顺序不同(比如第一列正序,第二列倒序)
print(dataframe.sort_values(by=['Name','age'],ascending=[True,False]))
insert函数:插入列数据
插入某一列数据,参数介绍:
- loc: 传入整数,代表插入在第几列(0代表第1列)
- column:列名
- value:每列的值(单个值表示每一行值相同;传入列表,列表中的元素对应每一行的值)
- allow_duplicates:为True表示允许列名重复,否则不允许
测试代码:
#对DataFrame对象插入数据
dataframe.insert(2,'area','China')
dataframe.insert(3,'area',['China','America','korea','japan','China','America','korea','japan'],allow_duplicates=True)
print(dataframe)
结果:
groupby函数:分组聚合
支持对一个或多个列的值进行分组,应用聚合函数(如求和、平均值、最大值、最小值等)或其他操作。类似于大家使用sql查询数据库语句时通过group by分组聚合一样。
参数介绍:
- by:指定要根据哪个字段进行分组。可以是一个列名或者包含多个列名的列表。默认值None,表示不分组。
- axis:指定分组的方向。0或index表示按列分组(即沿着行的方向进行分组)。1或columns表示按行分组(即沿着列的方向进行分组)。默认情况下是0,即按列分组。
- level:当DataFrame的索引为多重索引时,level参数指定用于分组的索引级别。可以传入多重索引中索引的下标(如0, 1, ...)或索引名。如果传入多个级别,则使用列表形式。level参数不能与by参数同时使用。
- as_index:指定分组后的结果是否将分组列的值作为索引。如果按单列分组,结果默认是单索引;如果按多列分组,结果默认是多重索引。将as_index设置为False可以重置索引为默认的整数索引(0, 1, ...)。
- sort:指定分组结果是否按照分组列的值进行排序。默认情况下是True,即按升序排列。将sort设置为False则不排序,这可能会提升性能。
- observed:指定是否观察数据的层次结构。在某些情况下,当分组列包含大量唯一值时,设置observed=True可以提高性能,因为它只考虑在数据中出现的值。
- dropna:默认情况下,分组列的NaN值在分组结果中不保留。将dropna设置为False可以保留NaN分组。
函数执行后返回的是DataFrameGrouyBy对象,该对象支持多个聚合函数,类似如下:
- sum():计算分组数据的总和。
- mean():计算分组数据的平均值。
- max():找出分组数据中的最大值。
- min():找出分组数据中的最小值。
- median():计算分组数据的中位数。
- std():计算分组数据的标准差,反映数据的离散程度。
- var():计算分组数据的方差,也是反映数据离散程度的一个指标。
- count():计算分组中非空(非NA/null)值的数量。
- first():返回分组中的第一个值。
- last():返回分组中的最后一个值。
- nth(n):返回分组中的第n个值,n可以是正数也可以是负数,负数表示从末尾开始计数。
- size():返回分组中的元素数量。
- prod():计算分组数据的乘积。
- nunique():计算分组中唯一值的数量。
此外,pandas的agg()函数允许你传入一个函数列表或字典,对分组数据应用多个聚合函数。例如:agg(['sum', 'mean', 'max']) 或者 agg({'某一列': ['sum', 'mean', 'max']})
举例:定义一个DataFrame的数据
import pandas as pd
data_dict = {'group': ['A', 'C', 'B', 'A', 'A', 'C', 'B', 'B', 'C'],
'name': ['lilei', 'lili', 'wanglei', 'wangning', 'wangling', 'wangming', 'wangyu', 'liyi', 'xiaolei'],
'age': [25, 30, 35,21,23,24,25,26,32],
'city': ['shanghai', 'shenzhen', 'nanjing','shanghai', 'shenzhen', 'nanjing','shanghai', 'shenzhen', 'nanjing']}
df = pd.DataFrame(data_dict)
1)按照单个group列分组,统计age列的汇总值
print(df.groupby(by='group')['age'].sum())
2)按照多个列分组后,统计age列汇总值,最大值,最小值等
#以下两种方式都可以
print(df.groupby(by=['group','city'])['age'].agg(['sum','max','min']))
print(df.groupby(by=['group','city']).agg({'age':['sum','max','min']}))
3)按照单个group列分组,统计age列的汇总值并添加为新的一列数据
我们可以使用transform函数对每个组应用一个聚合函数,该函数将返回与原始DataFrame形状相同的对象
#聚合后添加sum列
df['sum'] = df.groupby(by='group')['age'].transform('sum')
print(df)
4)按照单个group列分组,统计age列的汇总值,并使用filter函数过滤某些数据
# 只保留'age'列总和大于80的组
filtered = df.groupby(by='group').filter(lambda x: (x['age'].sum() > 80))
print(filtered)
共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”
-----指水滴不断地滴,可以滴穿石头;
-----比喻坚持不懈,集细微的力量也能成就难能的功劳。
----感谢读者的阅读和学习,谢谢大家。
相关推荐
- 2023年最新微信小程序抓包教程(微信小程序 抓包)
-
声明:本公众号大部分文章来自作者日常学习笔记,部分文章经作者授权及其他公众号白名单转载。未经授权严禁转载。如需转载,请联系开百。请不要利用文章中的相关技术从事非法测试。由此产生的任何不良后果与文...
- 测试人员必看的软件测试面试文档(软件测试面试怎么说)
-
前言又到了毕业季,我们将会迎来许多需要面试的小伙伴,在这里呢笔者给从事软件测试的小伙伴准备了一份顶级的面试文档。1、什么是bug?bug由哪些字段(要素)组成?1)将在电脑系统或程序中,隐藏着的...
- 复活,视频号一键下载,有手就会,长期更新(2023-12-21)
-
视频号下载的话题,也算是流量密码了。但也是比较麻烦的问题,频频失效不说,使用方法也难以入手。今天,奶酪就来讲讲视频号下载的新方案,更关键的是,它们有手就会有用,最后一个方法万能。实测2023-12-...
- 新款HTTP代理抓包工具Proxyman(界面美观、功能强大)
-
不论是普通的前后端开发人员,还是做爬虫、逆向的爬虫工程师和安全逆向工程,必不可少会使用的一种工具就是HTTP抓包工具。说到抓包工具,脱口而出的肯定是浏览器F12开发者调试界面、Charles(青花瓷)...
- 使用Charles工具对手机进行HTTPS抓包
-
本次用到的工具:Charles、雷电模拟器。比较常用的抓包工具有fiddler和Charles,今天讲Charles如何对手机端的HTTS包进行抓包。fiddler抓包工具不做讲解,网上有很多fidd...
- 苹果手机下载 TikTok 旧版本安装包教程
-
目前苹果手机能在国内免拔卡使用的TikTok版本只有21.1.0版本,而AppStore是高于21.1.0版本,本次教程就是解决如何下载TikTok旧版本安装包。前期准备准备美区...
- 【0基础学爬虫】爬虫基础之抓包工具的使用
-
大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬...
- 防止应用调试分析IP被扫描加固实战教程
-
防止应用调试分析IP被扫描加固实战教程一、概述在当今数字化时代,应用程序的安全性已成为开发者关注的焦点。特别是在应用调试过程中,保护应用的网络安全显得尤为重要。为了防止应用调试过程中IP被扫描和潜在的...
- 一文了解 Telerik Test Studio 测试神器
-
1.简介TelerikTestStudio(以下称TestStudio)是一个易于使用的自动化测试工具,可用于Web、WPF应用的界面功能测试,也可以用于API测试,以及负载和性能测试。Te...
- HLS实战之Wireshark抓包分析(wireshark抓包总结)
-
0.引言Wireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接...
- 信息安全之HTTPS协议详解(加密方式、证书原理、中间人攻击 )
-
HTTPS协议详解(加密方式、证书原理、中间人攻击)HTTPS协议的加密方式有哪些?HTTPS证书的原理是什么?如何防止中间人攻击?一:HTTPS基本介绍:1.HTTPS是什么:HTTPS也是一个...
- Fiddler 怎么抓取手机APP:抖音、小程序、小红书数据接口
-
使用Fiddler抓取移动应用程序(APP)的数据接口需要进行以下步骤:首先,确保手机与计算机连接在同一网络下。在计算机上安装Fiddler工具,并打开它。将手机的代理设置为Fiddler代理。具体方...
- python爬虫教程:教你通过 Fiddler 进行手机抓包
-
今天要说说怎么在我们的手机抓包有时候我们想对请求的数据或者响应的数据进行篡改怎么做呢?我们经常在用的手机手机里面的数据怎么对它抓包呢?那么...接下来就是学习python的正确姿势我们要用到一款强...
- Fiddler入门教程全家桶,建议收藏
-
学习Fiddler工具之前,我们先了解一下Fiddler工具的特点,Fiddler能做什么?如何使用Fidder捕获数据包、修改请求、模拟客户端向服务端发送请求、实施越权的安全性测试等相关知识。本章节...
- fiddler如何抓取https请求实现手机抓包(100%成功解决)
-
一、HTTP协议和HTTPS协议。(1)HTTPS协议=HTTP协议+SSL协议,默认端口:443(2)HTTP协议(HyperTextTransferProtocol):超文本传输协议。默认...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
python使用fitz模块提取pdf中的图片
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)