20个Pandas数据实战案例,干货多多
liuian 2025-01-10 15:14 41 浏览
作者:俊欣
来源:关于数据分析与可视化
今天我们讲一下pandas当中的数据过滤内容,小编之前也写过也一篇相类似的文章,但是是基于文本数据的过滤,大家有兴趣也可以去查阅一下。
下面小编会给出大概20个案例来详细说明数据过滤的方法,首先我们先建立要用到的数据集,代码如下
import pandas as pd
df = pd.DataFrame({
"name": ["John","Jane","Emily","Lisa","Matt"],
"note": [92,94,87,82,90],
"profession":["Electrical engineer","Mechanical engineer",
"Data scientist","Accountant","Athlete"],
"date_of_birth":["1998-11-01","2002-08-14","1996-01-12",
"2002-10-24","2004-04-05"],
"group":["A","B","B","A","C"]
})
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
2 Emily 87 Data scientist 1996-01-12 B
3 Lisa 82 Accountant 2002-10-24 A
4 Matt 90 Athlete 2004-04-05 C
筛选表格中的若干列
代码如下
df[["name","note"]]
output
name note
0 John 92
1 Jane 94
2 Emily 87
3 Lisa 82
4 Matt 90
再筛选出若干行
我们基于上面搜索出的结果之上,再筛选出若干行,代码如下
df.loc[:3, ["name","note"]]
output
name note
0 John 92
1 Jane 94
2 Emily 87
3 Lisa 82
根据索引来过滤数据
这里我们用到的是iloc方法,代码如下
df.iloc[:3, 2]
output
0 Electrical engineer
1 Mechanical engineer
2 Data scientist
通过比较运算符来筛选数据
df[df.note > 90]
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
dt属性接口
dt属性接口是用于处理时间类型的数据的,当然首先我们需要将字符串类型的数据,或者其他类型的数据转换成事件类型的数据,然后再处理,代码如下
df.date_of_birth = df.date_of_birth.astype("datetime64[ns]")
df[df.date_of_birth.dt.month==11]
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
或者我们也可以
df[df.date_of_birth.dt.year > 2000]
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
3 Lisa 82 Accountant 2002-10-24 A
4 Matt 90 Athlete 2004-04-05 C
多个条件交集过滤数据
当我们遇上多个条件,并且是交集的情况下过滤数据时,代码应该这么来写
df[(df.date_of_birth.dt.year > 2000) &
(df.profession.str.contains("engineer"))]
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
多个条件并集筛选数据
当多个条件是以并集的方式来过滤数据的时候,代码如下
df[(df.note > 90) | (df.profession=="Data scientist")]
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
2 Emily 87 Data scientist 1996-01-12 B
Query方法过滤数据
Pandas当中的query方法也可以对数据进行过滤,我们将过滤的条件输入
df.query("note > 90")
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
又或者是
df.query("group=='A' and note > 89")
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
nsmallest方法过滤数据
pandas当中的nsmallest以及nlargest方法是用来找到数据集当中最大、最小的若干数据,代码如下
df.nsmallest(2, "note")
output
name note profession date_of_birth group
3 Lisa 82 Accountant 2002-10-24 A
2 Emily 87 Data scientist 1996-01-12 B
df.nlargest(2, "note")
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
0 John 92 Electrical engineer 1998-11-01 A
isna()方法
isna()方法功能在于过滤出那些是空值的数据,首先我们将表格当中的某些数据设置成空值
df.loc[0, "profession"] = np.nan
df[df.profession.isna()]
output
name note profession date_of_birth group
0 John 92 NaN 1998-11-01 A
notna()方法
notna()方法上面的isna()方法正好相反的功能在于过滤出那些不是空值的数据,代码如下
df[df.profession.notna()]
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
2 Emily 87 Data scientist 1996-01-12 B
3 Lisa 82 Accountant 2002-10-24 A
4 Matt 90 Athlete 2004-04-05 C
assign方法
pandas当中的assign方法作用是直接向数据集当中来添加一列
df_1 = df.assign(score=np.random.randint(0,100,size=5))
df_1
output
name note profession date_of_birth group score
0 John 92 Electrical engineer 1998-11-01 A 19
1 Jane 94 Mechanical engineer 2002-08-14 B 84
2 Emily 87 Data scientist 1996-01-12 B 68
3 Lisa 82 Accountant 2002-10-24 A 70
4 Matt 90 Athlete 2004-04-05 C 39
explode方法
explode()方法直译的话,是爆炸的意思,我们经常会遇到这样的数据集
Name Hobby
0 吕布 [打篮球, 玩游戏, 喝奶茶]
1 貂蝉 [敲代码, 看电影]
2 赵云 [听音乐, 健身]
Hobby列当中的每行数据都以列表的形式集中到了一起,而explode()方法则是将这些集中到一起的数据拆开来,代码如下
Name Hobby
0 吕布 打篮球
0 吕布 玩游戏
0 吕布 喝奶茶
1 貂蝉 敲代码
1 貂蝉 看电影
2 赵云 听音乐
2 赵云 健身
当然我们会展开来之后,数据会存在重复的情况,
df.explode('Hobby').drop_duplicates().reset_index(drop=True)
output
Name Hobby
0 吕布 打篮球
1 吕布 玩游戏
2 吕布 喝奶茶
3 貂蝉 敲代码
4 貂蝉 看电影
5 赵云 听音乐
6 赵云 健身相关推荐
- 苹果笔记本怎样重装系统(苹果笔记本怎样重装系统还原)
-
苹果笔记本电脑系统可以通过以下步骤进行重装:1.备份数据:在开始重装前,需要备份你的重要数据。你可以将数据存储到外部硬盘、云存储或其他可靠的设备中。2.下载安装器:从AppStore中下载macOS...
- 手机wifi打不开怎么办
-
手机wifi打不开的原因,可能集中在该手机出现了手机文件丢失、手机版本不稳定、手机文件出错以及手机wifi模块摔坏等故障造成的。手机wifi打不开修复教程1.wcnss_qcom_cfg文件丢失导...
- bios恢复出厂设置后无法开机
-
可通过进入BIOS界面设置bios恢复出厂设置的方法解决,步骤如下:1、通过按Delete或数字键盘中的Del键进入BIOS。2、按箭头键输入并将光标移动到“加载设置默认值”项,然后按enter确认。...
- 电脑硬盘打不开怎么办(电脑硬盘打不开怎么办)
-
电脑硬盘坏了是不能开机的。硬盘坏道的修复方法:1、逻辑坏道的修复对于逻辑坏道,Windows自带的“磁盘扫描程序(Scandisk)”就是最简便常用的解决手段。如果硬盘出现了坏道,我们可在Window...
- linux系统备份与还原工具(linux系统备份与还原工具在哪)
-
用GHOST对LINUX系统做备份1:要求将安装了LINUX系统的硬盘(原盘)整盘刻至另一硬盘(目标盘)。2:所需工具:DOS系统引导盘,GHOST2003(版本低的对文件格式不能很好的支持),原盘(...
- pdf怎么转换成xml格式(如何将pdf格式转换成xml格式)
-
将PDF转换为XML需要使用专业的PDF转换工具。以下是一些常用的PDF转XML工具:1.AdobeAcrobatDC:AdobeAcrobatDC是一款功能强大的PDF编辑软件,其中包括P...
- windows7iso文件(iso文件 win7)
-
利用winrar可以直接打开iso文件,如果双击不能直接打开需要设置winrar,步骤如下:1、启动winrar,点击选项菜单设置命令;2、点击综合选项卡,点击全部选择,点击确定即可。具体操作方法步骤...
- 路由器ip地址是什么意思(路由器的ip地址是)
-
路由器IP地址是指连接到互联网的路由器在局域网内的唯一标识符,一般为192.168.1.1或192.168.0.1等地址。通过路由器IP地址,用户可以通过浏览器等工具登录到路由器管理界面,进行网络设置...
-
- mediaplayer播放记录在哪里(mediaplayer历史记录)
-
《WindowsMediaPlayer》无法播放该文件,表示《WindowsMediaPlayer》目前的版本不支持该视频的格式编码。解决方法: 1.如果安装的是正版操作系统,点帮助→检查更新,稍待片刻,WindowsMed...
-
2026-01-14 02:37 liuian
- 电脑xp怎么换系统win7(电脑xp系统换win7教程)
-
第一种方法:自助安装win7系统 我们在进行自助安装win7系统之前我们要保证我们的电脑是联网的。为了能更加顺利的完成对xp系统的升级,我们的电脑最好是能高速上网的,只有能联网我们才可以下载最新的系...
- appstore官方网站(appstore.apple.com)
-
Appstore即applicationstore,通常理解为应用商店。Appstore是苹果公司基于iPhone的软件应用商店,向iPhone的用户提供第三方的应用软件服务,这是苹果开创的一...
- 电脑开不了机怎么办显示英文字母
-
win7操作系统电脑在开机的时候屏幕界面出现CLIENTMACADDR,然后就一直停在了这个界面,要等很长时间才能进入系统登入界面。出现这样问题的原因是什么?这是因为网卡启用了BOOTROM芯片...
- win7此windows副本不是正版(win7 此windows副本不是正版)
-
win7系统提示副本不是正版解决方法:1.打开设备,调出运行窗口,输入命令“cmd”,并按下回车键;2.这时命令提示符窗口便会自动弹出;3.输入命令“SLMGR-REARM”,再按下回车键;4.命令...
- win7安装选版本(win7选哪个版本)
-
Win7旗舰版更好用。Windows7旗舰版属于微软公司开发的Windows7系统系列中的终结版本,是为了取代WindowsXP系统的新系统,Windows7的版本还有简易版、家庭普通版、家庭高...
-
- 电脑psd文件用什么打开(电脑上psd文件打不开)
-
具体操作步骤如下:1、首先鼠标右键单击PSD格式的图片,然后点击“打开方式”选项。2、然后在该页面中点击“选择默认程序”选项。3、之后在该页面中点击“浏览”选项。4、然后在该页面中点击选择要打开的软件后点击“确定”选项即可打开了。PSD文...
-
2026-01-14 01:05 liuian
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
