百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python 的集合和字典实现的机制_python 字典 集合

liuian 2025-02-19 12:55 61 浏览

Python 的集合和字典是强大而灵活的数据结构,可提供存储和检索数据的有效方法。其效率的核心在于哈希表的实施,这确保了快速的访问时间。

集合和词典基础知识

在 Python 中,集合和字典是提供高效数据存储和检索的基本数据结构。集合和字典都利用哈希表的强大功能来实现各种操作的快速平均情况时间复杂性。了解这些结构对于有效的 Python 编程至关重要。

集合是唯一元素的无序集合,这意味着集合中没有两个元素是相同的。当需要执行涉及多个元素的操作而不必担心重复项时,集特别有用。它们提供高效的成员身份测试,允许快速检查集合中是否存在元素。

集合也适用于各种数学运算。例如,可以使用 sets 来执行并集、交集、差集和对称差集运算,这些运算在许多算法和应用程序中都很常见。

# Example of creating and using a set
my_set = {1, 2, 3, 4, 5}
print(3 in my_set)  # Output: True

# Mathematical operations with sets
set_a = {1, 2, 3}
set_b = {3, 4, 5}

# Union: Elements in either set_a or set_b
print(set_a | set_b)  # Output: {1, 2, 3, 4, 5}

# Intersection: Elements in both set_a and set_b
print(set_a & set_b)  # Output: {3}

# Difference: Elements in set_a but not in set_b
print(set_a - set_b)  # Output: {1, 2}

# Symmetric difference: Elements in either set_a or set_b but not both
print(set_a ^ set_b)  # Output: {1, 2, 4, 5}

集是可变的,这意味着您可以在创建集后添加或删除元素。但是,元素本身必须是不可变的(例如,数字、字符串或 Tuples)。

# Adding and removing elements in a set
my_set.add(6)
print(my_set)  # Output: {1, 2, 3, 4, 5, 6}

my_set.remove(3)
print(my_set)  # Output: {1, 2, 4, 5, 6}

字典

字典是键值对的无序集合。与仅存储唯一元素的 sets 不同,字典存储每个键都是唯一的并映射到特定值的对。此结构允许基于键进行高效的数据检索。

字典用途广泛,可用于存储各种数据类型。它们通常用于计算发生次数、对数据进行分组和实施查找表等任务。

# Example of creating and using a dictionary
my_dict = {'apple': 1, 'banana': 2, 'cherry': 3}
print(my_dict['banana'])  # Output: 2

# Adding and modifying key-value pairs
my_dict['date'] = 4
my_dict['banana'] = 5
print(my_dict)  # Output: {'apple': 1, 'banana': 5, 'cherry': 3, 'date': 4}

# Removing key-value pairs
del my_dict['apple']
print(my_dict)  # Output: {'banana': 5, 'cherry': 3, 'date': 4}

字典中的键必须是不可变类型,例如数字、字符串或元组。另一方面,值可以是任何数据类型,包括列表或其他字典。

字典提供了访问所有键、值或键值对的方法:

# Accessing keys, values, and items in a dictionary
print(my_dict.keys())   # Output: dict_keys(['banana', 'cherry', 'date'])
print(my_dict.values()) # Output: dict_values([5, 3, 4])
print(my_dict.items())  # Output: dict_items([('banana', 5), ('cherry', 3), ('date', 4)])

词典的主要优势之一是它们的速度。字典操作(如插入、删除和查找)的平均时间复杂度通常为 O(1),这使得它们对于大型数据集非常有效。

集合和字典都建立在哈希表之上,哈希表是一种提供这种高效性能的数据结构。了解哈希表的工作原理以及 Python 如何处理冲突和调整大小,对于掌握这些数据结构非常重要。

哈希表

哈希表是 Python 中 sets 和 dictionaries 背后的核心数据结构。它们使这些集合能够有效地执行插入、删除和查找等操作。了解哈希表是掌握集合和字典在后台如何工作的关键。

什么是哈希表?

哈希表(也称为哈希映射)是一种数据结构,它使用哈希函数将索引计算到存储桶或槽数组中。哈希函数接受一个输入(或“key”)并返回一个整数,称为哈希值。此哈希值确定相应值应在哈希表中存储的索引。

# Example of hash function
print(hash('apple'))  # Output: -8388877758555033324

哈希表允许基本操作的平均大小写 O(1) 时间复杂度,这使得它们非常高效。这种效率是通过使用良好的哈希函数将元素均匀地分布在表中来实现的。

哈希表的工作原理

当将元素添加到集合中或将键值对添加到字典中时,Python 会计算键的哈希值。然后,此哈希值用于确定哈希表中将存储元素的索引。

例如,考虑将值为 1 的键 'apple' 添加到字典中。Python 计算 'apple' 的哈希值,并使用此值在哈希表中查找适当的索引。

# Adding an element to a dictionary
my_dict = {}
my_dict['apple'] = 1  # Hash maps 'apple' to an index in the hash table
print(my_dict)  # Output: {'apple': 1}

存储桶和索引

哈希表由一组存储桶组成。每个 bucket 可以包含多个元素,但理想情况下,每个 key 都映射到一个唯一的 bucket。当不同的键产生相同的哈希值时,会发生哈希冲突,Python 必须处理此冲突才能正确存储所有元素。

Python 的哈希函数

Python 的内置 hash() 函数旨在生成广泛的哈希值分布,从而降低冲突的可能性。该函数确保具有不同值的对象具有不同的哈希值,而相同的值始终导致相同的哈希值。

# Demonstrating Python's hash function
print(hash('banana'))  # Output: 7689599545323731411
print(hash('taco'))    # Output: 1026735073076657625
print(hash('banana'))  # Output: 7689599545323731411 Same as the first time as it does not change

负载系数和大小调整

哈希表的效率取决于其负载因子,即条目数除以存储桶数。高负载系数意味着更多的碰撞和性能更慢。为了保持性能,Python 会在负载因子超过特定阈值时动态调整哈希表的大小。

在调整大小期间,将创建一个新的更大的哈希表,并且所有现有键都将重新哈希并插入到新表中。此过程可确保哈希表即使在元素数量增加时也能保持高效。

# Example of resizing
my_dict = {i: i for i in range(1000)}  # Initial dictionary
# Python automatically resizes the dictionary as needed

哈希表的优点

哈希表的主要优点是它们的速度。由于哈希表使用存储桶数组和哈希函数来索引元素,因此插入、删除和查找等操作平均可以在恒定时间内执行。

另一个优点是哈希表可以处理多种数据类型。在 Python 中,可以使用数字、字符串、元组和其他不可变类型作为字典中的键或集合中的元素。这种灵活性使哈希表成为许多编程任务的多功能且强大的工具。

碰撞解决

当多个键产生相同的哈希值时,会发生哈希冲突,从而导致哈希表中的索引相同。有效解决这些冲突对于维护 set 和 dictionaries 的性能至关重要。Python 使用多种技术的组合来处理冲突,确保数据结构保持快速可靠。

开放寻址

开放寻址是一种冲突解决技术,其中所有元素都直接存储在哈希表中。发生冲突时,算法会探测表以查找下一个可用槽。有几种探测策略,包括线性探测、二次探测和双重哈希。

线性探测

在线性探测中,当发生冲突时,算法会检查表中的下一个槽(即索引索引 + 1 处的槽)。如果该槽也被占用,它将检查下一个槽,依此类推,直到找到空槽。

Python 的字典使用线性探测的变体。发生冲突时,算法会查找线性序列中的下一个可用槽。

# Assuming 'a' and 'b' have the same hash
my_dict = {}
my_dict['a'] = 1  # Hash maps 'a' to slot 0
my_dict['b'] = 2  # Collision, next slot (linear probing)
print(my_dict)  # Output: {'a': 1, 'b': 2}

二次探测

二次探测通过增加间隔检查槽来解决冲突。它不是检查下一个插槽,而是以 12、22、32 等的间隔检查插槽。此方法减少了集群,但实施起来可能更复杂。

双重哈希

双重哈希使用第二个哈希函数来确定探测的步长。发生冲突时,算法使用第二个哈希函数计算新索引并移动到该槽。此方法可以进一步减少聚类并提高性能。

链接

链接是另一种冲突解决技术,其中哈希表中的每个存储桶都指向映射到同一存储桶的条目的链接列表。当发生冲突时,新条目将添加到该索引处的链接列表中。此方法允许多个元素共存于同一个存储桶中,而无需探测。

尽管 Python 的集合和字典不使用链接,但它是其他哈希表实现中的常用方法。链接的优点是避免了开放寻址方法中出现的主要集群问题。

碰撞解决示例

考虑一个例子来说明 Python 如何处理开放寻址的冲突:

class SimpleHashTable:
    def __init__(self, size):
        self.size = size
        self.table = [None] * size

    def hash_function(self, key):
        return hash(key) % self.size

    def insert(self, key, value):
        index = self.hash_function(key)
        while self.table[index] is not None:
            index = (index + 1) % self.size  # Linear probing
        self.table[index] = (key, value)

    def get(self, key):
        index = self.hash_function(key)
        while self.table[index] is not None:
            if self.table[index][0] == key:
                return self.table[index][1]
            index = (index + 1) % self.size
        return None

# Creating a simple hash table
hash_table = SimpleHashTable(10)
hash_table.insert('a', 1)
hash_table.insert('b', 2)
print(hash_table.get('a'))  # Output: 1
print(hash_table.get('b'))  # Output: 2

在此示例中,SimpleHashTable 类使用线性探测来解决冲突。insert 方法为每个键找到合适的插槽,如果发生冲突,它会探测下一个插槽,直到找到空插槽。

性能特点

Python 中 sets 和 dictionaries 的性能是它们被广泛使用的主要原因。通过利用哈希表,这些数据结构提供了高效的存储和检索功能。在这里,我们将介绍 set 和 dictions 的性能特征,重点介绍平均情况和最坏情况,以及用于保持性能的策略。

平均性能

在平均情况下,集合和字典为插入、删除和查找等操作提供恒定的时间复杂度 O(1)。这种效率是通过使用哈希表来实现的,哈希表使用哈希函数在可用插槽之间均匀分布元素。

查找

在集合和字典中查找的平均大小写性能为 O(1)。当在字典中查找键或检查集合中的成员身份时,Python 会计算键的哈希值,并使用它直接索引到哈希表中。

my_dict = {'apple': 1, 'banana': 2, 'cherry': 3}
print(my_dict['banana'])  # Output: 2

插入和删除

插入和删除操作的平均时间复杂度也为 O(1)。在字典中插入新的键值对或将元素添加到集合中时,Python 会计算哈希值并将元素放入相应的存储桶中。删除遵循类似的过程,通过元素的哈希值查找元素并将其删除。

my_dict = {'apple': 1, 'banana': 2, 'cherry': 3}
my_dict['date'] = 4  # Insertion
del my_dict['banana']  # Deletion
print(my_dict)  # Output: {'apple': 1, 'cherry': 3, 'date': 4}

最坏情况下的性能

虽然 sets 和 dictionaries 的平均情况性能非常好,但最坏情况的性能可能会降级为 O(n)。当发生许多冲突时,会出现这种情况,导致所有元素都存储在同一个存储桶中。但是,如果拥有良好的哈希函数和有效的冲突解决策略,这种情况很少见。

影响最坏情况性能的因素

  • 哈希函数差:设计不佳的哈希函数可能会导致过多的冲突,其中许多键映射到相同的哈希值。这会导致链接方法中的探针序列更长或链表更大。
  • 高负载系数:负载因子是哈希表中元素数与桶数的比率。高负载系数会增加发生碰撞的可能性,并可能降低性能。

Python 通过动态调整大小和使用设计良好的哈希函数来缓解这些问题。

动态调整大小

为了保持高效的性能,当负载因子超过特定阈值时,Python 会动态调整哈希表的大小。此过程包括创建一个新的、更大的哈希表,并重新哈希所有现有键以更均匀地分配它们。

调整大小过程

  1. 创建新的哈希表:将创建一个具有更多存储桶的新哈希表。
  2. 重新哈希现有 Key:旧哈希表中的所有键都会重新哈希并插入到新表中。此步骤可确保元素在新存储桶中均匀分布。
# Example of resizing
my_dict = {i: i for i in range(1000)}  # Initial dictionary
# Python automatically resizes the dictionary as needed

动态调整大小通过降低冲突的可能性并确保哈希表保持有效利用,帮助保持 O(1) 的平均大小写性能。

性能注意事项

使用集和字典时,必须考虑它们的性能特征,以便在应用程序中实现最佳结果。

  • 选择正确的数据结构:使用集进行成员资格测试和涉及唯一元素的数学运算。使用字典存储键值对和实现查找表。
  • 监控负载系数:请注意负载因子,尤其是在具有大型数据集的应用程序中。Python 会自动处理大小调整,但了解此机制可以帮助您预测性能影响。
  • 选择好键:使用不可变类型(例如数字、字符串、元组)作为字典中的键,以确保一致和高效的哈希。

相关推荐

驱动网卡(怎么从新驱动网卡)
驱动网卡(怎么从新驱动网卡)

网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...

2026-01-30 00:37 liuian

win10更新助手装系统(微软win10更新助手)

1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...

windows11专业版密钥最新(windows11专业版激活码永久)

 Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...

手机删过的软件恢复(手机删除过的软件怎么恢复)
手机删过的软件恢复(手机删除过的软件怎么恢复)

操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...

2026-01-29 23:55 liuian

一键ghost手动备份系统步骤(一键ghost 备份)

  步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。  步骤...

怎么创建局域网(怎么创建局域网打游戏)

  1、购买路由器一台。进入路由器把dhcp功能打开  2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。  3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...

精灵驱动器官方下载(精灵驱动手机版下载)

是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...

一键还原系统步骤(一键还原系统有哪些)

1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。  2、在弹出的“准备安装”窗口中,可...

电脑加速器哪个好(电脑加速器哪款好)

我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...

任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)

是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...

u盘怎么恢复文件(u盘文件恢复的方法)

开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...

系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)

1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...

剪贴板权限设置方法(剪贴板访问权限)
剪贴板权限设置方法(剪贴板访问权限)

1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...

2026-01-29 21:37 liuian

平板系统重装大师(平板重装win系统)

如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...

联想官网售后服务网点(联想官网售后服务热线)

联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...