百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python之容器:字典(dict)缺失值处理不优雅?试试defaultdict

liuian 2024-11-28 00:42 50 浏览

引言

前面我们已经介绍了Python中字典(dict)的使用,在处理字典缺失键时,一种方式是加分支判断处理,但是有点繁琐;另外一种,是使用setdefault()方法,似乎已经简化了缺失值的处理。但是,setdefault()方法,其实还是有两个问题的:
1、setdefault()这个方法的名字比较怪,对不熟悉的童鞋来说,可读性比较差,需要在脑子里绕一会儿,一时半会儿难以理解这个代码要干啥;
2、还是不够高效,代码行数似乎还可以精简

针对缺失键的场景,Python提供了更加好用的工具,这就是collections包中的defaultdict。

本文的主要内容大致如下:
1、回顾一下使用dict在应对缺失值的做法
2、defaultdict的使用

dict缺失键的常规做法

以人员按照年龄的分组计数为例,来说明缺失值的应对场景。
首先生成测试数据,然后以常规的分支判断来统计:

from faker import Faker
from rich import print
fk = Faker('zh_CN')

# 为了数据尽量聚集,我们生成18~28年龄的测试数据
persons = [(fk.unique.name(), fk.random_int(18, 28)) for _ in range(100)]
print(persons)

# 按照年龄统计人数
count_by_age = {}

# 通过判断键值是否存在,分支处理
for name, age in persons:
    if age in count_by_age:
        count_by_age[age] += 1
    else:
        count_by_age[age] = 1

print(count_by_age)

执行结果:

我们也可以试着用前面提到过的setdefault()方法来处理,可以把分支判断的代码省掉:

count_by_age = {}
# 使用setdefault()方法来处理
for name, age in persons:
    cnt = count_by_age.setdefault(age, 0)
    count_by_age[age] += 1
print(count_by_age)

虽然有点奇怪……
接下来试试defaultdict来处理。

defaultdict的使用

简单看下defaultdict的定义:

传入一个default_factory的“函数”,这个函数会在当key不存在时,被调用,用来生成一个新的默认值。

接下来,看下上面的例子,使用defaultdict的实现:

from faker import Faker
from collections import defaultdict

fk = Faker('zh_CN')

# 为了数据尽量聚集,我们生成18~28年龄的测试数据
persons = [(fk.unique.name(), fk.random_int(18, 28)) for _ in range(100)]

# 按照年龄统计人数,这次不使用dict,改用defaultdict
count_by_age = defaultdict(int)

# 通过判断键值是否存在,分支处理
for name, age in persons:
    count_by_age[age] += 1

print(count_by_age)

count_by_age2 = {}
# 使用setdefault()方法来处理
# 用来跟defaultdict处理的结果做对比
for name, age in persons:
    cnt = count_by_age2.setdefault(age, 0)
    count_by_age2[age] += 1
print(count_by_age2)
# 从定义来看,defaultdict与dict中元素相同时,比较时会返回True
print(count_by_age == count_by_age2)

执行结果:

可以看到,使用defaultdict时,我们直接通过索引的方式对不存在的key进行索引并执行更新操作,一行代码就搞定了。

其内部的实现逻辑是,首先判断key不存在时,会通过构造defaultdict对象时,传入的“函数”构造一个默认值,比如:
int()默认会创建一个值为0的整数对象,str()会创建一个值为""的字符串对象。

# 0
print(int())
# ''空字符串
print(str())
# 长度为0
print(len(str()))

其实,当需要进行分组收集时,defaultdict会更加好用。

比如,不同于前面的分组计数,我们这次要把每个年龄的人名都放在一起,放到一个list中,我们通过defaultdict来实现:

from faker import Faker
from rich import print
from collections import defaultdict

fk = Faker('zh_CN')

# 为了数据尽量聚集,我们生成18~28年龄的测试数据
persons = [(fk.unique.name(), fk.random_int(18, 28)) for _ in range(100)]

# 按照年龄分组收集
collect_by_age = defaultdict(list)

# 通过判断键值是否存在,分支处理
for name, age in persons:
    collect_by_age[age].append(name)

print(collect_by_age)

代码中,我们使用list作为工厂函数进行默认值的构造,当key不存在时,创建一个空列表对象。

执行结果:

我们还可以自定义工厂函数来指定默认值,比如,我们默认每个人的年龄都是18:

def default_age():
    return 18

persons = defaultdict(default_age)
print(persons['zs'])
persons['zs'] = 25
print(persons['zs'])

执行结果:

首次访问时,不存在,则会创建默认值18。

前面,之所以在函数上面打了引号,其实并不一定只能是函数,其实,只要是可调用的对象,比如,我们传入一个自定义类名,则会默认调用其__init__方法:

class Student:
    def __init__(self):
        self.name = 'unknown'
        self.age = 0

    def __str__(self):
        return f"Student(name: {self.name}, age: {self.age})"


stus = defaultdict(Student)
print(stus['zs'])
stus['zs'].name = '张三'
stus['zs'].age = 18
print(stus['zs'])

执行结果:

总结

关于字典中缺失值处理的场景,本文首先介绍了dict中常规的分支判断的处理方法,以及通过setdefault()简化分支处理的方法。之后,引入defaultdict,介绍了更加灵活、强大的处理方法。根据实际使用场景,可以自行选择!


相关推荐

视频恢复软件哪个好(视频恢复软件哪个好免费)

恢复已经永久删除的视频是比较困难的,因为一旦文件被永久删除,它们就会在存储设备上释放空间,数据将会被覆盖。即使使用一些恢复软件也不一定能够保证数据完全恢复。但是如果您想尝试,可以考虑使用一些专门的数据...

win7家庭版和纯净版(win7家庭版区别)

系统之家的Win7纯净版和旗舰版都是经过精简和优化的Windows7操作系统,但它们有一些不同之处。Win7纯净版是在保留Windows7原版功能的基础上,删除了一些不必要的预装软件和系统组件,以...

下载手机软件商店(手机应用商店下载安装)

每个手机上都有下载APP的应用商店,以下面为例演示,下载方法如下:1、首先在手机上找到并打开应用商店。2、接下来进入到应用商店之后,选择红色箭头所指处的搜索栏,搜索需要下载的应用。3...

如何重新安装windows7

要在Windows7开机前重新安装系统,你需要准备一个Windows7安装光盘或USB安装介质。然后按以下步骤操作:插入Windows7安装光盘或USB安装介质,重启计算机。在计算机启动时,按下...

怎么还原电脑(怎么还原电脑桌面图标)

1、开启电脑电源,然后出现滚动的小圆圈的时候按住电源键强制关机。2、重复上述操作2到3次,直到出现“选择一个选项”界面“,点击“疑难解答”。3、点击“重置此电脑”。4、点击“保留我的文件”或“删除所有...

32位win8系统(32位win8pe)

问的是32位win8系统能不能安装win10,这个WIN10和32位的win8系统没任何关系,只要你的硬件达到win10的要求就能安装了。在安装win10的时候,要注意的一点是win10系统也是有32...

xp系统纯净版一键装机软件(纯净版xp系统安装步骤)

不行的,使用360系统重装是不能更换电脑的操作系统的。因为360系统重装的原理只是把系统盘里维持系统运转必备的文件保留下来(已丢失和损坏的系统文件重新下载生成和修复),其他的文件全删除,(严格来说,这...

开机慢是什么原因(开机很慢怎么回事)

手机开机慢可能有多种原因,以下是一些常见的原因:1.应用程序过多:如果您的手机上安装了大量的应用程序,这些应用程序可能会在开机时自动启动,从而导致开机时间变慢。2.内存不足:如果您的手机内存不足,...

普联无线路由器(普联无线路由器- tl - wdr7620 千兆版)

安装设置步骤参考如下:接线方式,电话线接modem的adsl网口,modem的lan网口分线到无线路由器的wan网口,无线路由器的lan网口分线到电脑网口;电脑打开任意浏览器,地址栏输入tplog...

edge怎么改成ie(edge怎么改成IE内核)

你需要把你的电脑系统升级为windows10以上版本,这样就可以把IE浏览器更新为edge浏览器。这个edge浏览器是windows10以上版本所自带的浏览器,只要更新完了之后,它就安装在电脑上了,整...

腾讯企业qq官网首页(腾讯企业qq官网首页登录)
  • 腾讯企业qq官网首页(腾讯企业qq官网首页登录)
  • 腾讯企业qq官网首页(腾讯企业qq官网首页登录)
  • 腾讯企业qq官网首页(腾讯企业qq官网首页登录)
  • 腾讯企业qq官网首页(腾讯企业qq官网首页登录)
windows7旗舰版卡顿严重解决方法
windows7旗舰版卡顿严重解决方法

运行win7系统卡顿,涉及电脑软硬件问题:一、电脑硬件问题:电脑配置过低或者电脑硬件老化严重,导致在运行win7系统出现莫名卡顿。解决方法:给电脑增加内存、换固态硬盘,这样能有效的解决电脑卡顿变慢。二、系统缓存垃圾文件太多或者文件碎片化。解...

2025-11-11 16:55 liuian

下载钉钉安装到手机(下载钉钉的app并安装)
  • 下载钉钉安装到手机(下载钉钉的app并安装)
  • 下载钉钉安装到手机(下载钉钉的app并安装)
  • 下载钉钉安装到手机(下载钉钉的app并安装)
  • 下载钉钉安装到手机(下载钉钉的app并安装)
小米随身wifi驱动官方下载电脑版

如果您在安装小米随身WiFi驱动程序时遇到问题,可能有几个原因导致无法安装:1.兼容性问题:确保您正在尝试安装适用于您的操作系统版本和硬件设备的正确驱动程序。检查确保驱动程序与您的设备兼容,并尝试下...

软盘驱动器是什么设备(软盘驱动器是什么设备组成)

可能是恢复BIOS初始值造成的。开机时按【DEL】键,进入BIOS,将LegacyDiskettebA[1.44M,3.5in.]设置成[Disabled],保存退出即可。(...