PostgreSQL 18 - 索引启发式扫描 优化 in , = any(array) 多值匹配性能
liuian 2025-07-06 14:04 39 浏览
当数据库在处理 WHERE column = ANY(array) , WHERE column in (...) 这类多个条件匹配的查询时, 如果使用索引扫描, 原始扫描逻辑如下:
页1 → 结束 → 重启扫描 → 页2 → 结束 → 重启扫描 → 页3... 以上扫描逻辑在某些情况下会浪费CPU和IO, 例如条件在同一个或密集在一些有序block内时. 例如 in (1,2,3,4,...) 显然会在相邻索引叶子页面里. PostgreSQL 18 引入了一个扫描优化, 启发式扫描:
新逻辑:页1 → 页2(直接步进) → 页3(直接步进)...
如果原始扫描(primitive scan)已经从初始叶子页向右或向左移动到相邻页(说明匹配条目可能密集分布),则不会立即结束扫描。不需要每次都重新从btree的root开始扫描, 而是在叶子节点直接步进.
https://git.postgresql.org/gitweb/?p=postgresql.git;a=commit;h=9a2e2a285a149490a69a7bd92dd618bb7ca975b3
Improve nbtree array primitive scan scheduling.
author Peter Geoghegan <pg@bowt.ie>
Sat, 22 Mar 2025 17:02:18 +0000 (13:02 -0400)
committer Peter Geoghegan <pg@bowt.ie>
Sat, 22 Mar 2025 17:02:18 +0000 (13:02 -0400)
commit 9a2e2a285a149490a69a7bd92dd618bb7ca975b3
tree f4871e5e813c243c710dc63e67023b8216899ed8 tree
parent e215166c9c810950cff101cc098e66c8758538fa commit | diff
Improve nbtree array primitive scan scheduling.
Add a new scheduling heuristic: don't end the ongoing primitive index
scan immediately (at the point where _bt_advance_array_keys notices that
the next set of matching tuples must be on a later page) if the primscan
already managed to step right/left from its first leaf page. Schedule a
recheck against the next sibling leaf page's finaltup instead.
The new heuristic tends to avoid scenarios where the top-level scan
repeatedly starts and ends primitive index scans that each read only one
leaf page from a group of neighboring leaf pages. Affected top-level
scans will now tend to step forward (or backward) through the index
instead, without wasting cycles on descending the index anew.
The recheck mechanism isn't exactly new. But up until now it has only
been used to deal with edge cases involving high key finaltups with one
or more truncated -inf attributes that _bt_advance_array_keys deemed
"provisionally satisfied" (satisfied for the purposes of allowing the
scan to step onto the next page, subject to recheck once on that page).
The mechanism was added by commit 5bf748b8, which invented the general
concept of primitive scan scheduling. It was later enhanced by commit
79fa7b3b, which taught it about cases involving -inf attributes that
satisfy inequality scan keys required in the opposite-to-scan direction
only (arguably, they should have been covered by the earliest version).
Now the recheck mechanism can be applied based on scan-level heuristics,
which have nothing to do with truncated high keys. Now rechecks might
be performed by _bt_readpage when scanning in _either_ scan direction.
The theory behind the new heuristic is that any primitive scan that
makes it past its first leaf page is one that is already likely to have
arrays whose key values match index tuples that are closely clustered
together in the index. The rules that determine whether we ever get
past the first page are still conservative (that'll still only happen
when pstate.finaltup strongly suggests that it's the right thing to do).
Surviving past the first leaf page is a strong signal in itself.
Preparation for an upcoming patch that will add skip scan optimizations
to nbtree. That'll work by adding skip arrays, which behave similarly
to SAOP arrays, but generate their elements procedurally and on-demand.
Note that this commit isn't specifically concerned with skip arrays; the
scheduling logic doesn't (and won't) condition anything on whether the
scan uses skip arrays, SAOP arrays, or some combination of the two
(which seems like a good general principle for _bt_advance_array_keys).
While the problems that this commit ameliorates are more likely with
skip arrays (at least in practice), SAOP arrays (or those with very
dense, contiguous array elements) are also affected.
Author: Peter Geoghegan <pg@bowt.ie>
Reviewed-By: Matthias van de Meent <boekewurm+postgres@gmail.com>
Discussion: https://postgr.es/m/CAH2-Wzkz0wPe6+02kr+hC+JJNKfGtjGTzpG3CFVTQmKwWNrXNw@mail.gmail.com
AI 解读
解读:nbtree 数组原始扫描调度优化补丁
补丁目标
优化 PostgreSQL 中 B 树索引(nbtree)在处理包含数组的查询时的扫描效率,减少因频繁重启扫描导致的性能损耗。
问题背景
o 场景:当使用 WHERE column = ANY(array) 这类数组条件查询时,优化器会生成多个扫描键(scan keys),每个键对应数组中的一个元素。
o 原始逻辑:若扫描发现下一个匹配的元组在后续页面,会立即结束当前扫描,重新开始新的扫描(从根节点逐层下探到叶子页)。
o 缺陷:若数组元素对应的索引条目集中在相邻的叶子页中,频繁重启扫描会导致重复的索引遍历,浪费 CPU 和 I/O 资源。
核心改进
- 新启发式规则
o 触发条件:如果原始扫描(primitive scan)已经从初始叶子页向右或向左移动到相邻页(说明匹配条目可能密集分布),则不会立即结束扫描。
o 行为变更:安排在下个兄弟叶子页的 finaltup(页末元组)处重新检查,直接步进到相邻页继续扫描,避免重新遍历索引树。 - Recheck 机制的扩展
o 原用途:仅处理高键(high key)被截断的特殊情况(如 -inf 属性匹配)。
o 新用途:基于扫描级别的启发式决策,即使没有高键问题,也会触发重新检查相邻页。
技术原理
o finaltup 的作用:
每个叶子页的最后一个元组(finaltup)用于判断后续页是否可能存在匹配数据。若当前页的 finaltup 符合条件,则继续扫描下一个页。
o 示例流程:
原始逻辑:页1 → 结束 → 重启扫描 → 页2 → 结束 → 重启扫描 → 页3...
新逻辑:页1 → 页2(直接步进) → 页3(直接步进)...
性能优化效果
o 减少索引遍历:避免重复从根节点下探到叶子页,减少 CPU 和磁盘 I/O。
o 适用场景:
o 密集分布的数组元素:如查询 WHERE id IN (1, 2, 3),且这些 ID 对应的索引条目集中在相邻页。
o 未来 Skip Scan 优化:为后续动态生成扫描键(如范围扫描)提供基础,进一步提升复杂查询效率。
实现细节
o 代码改动:
o 修改 _bt_advance_array_keys 逻辑,增加对“是否已移动过页面”的判断。
o 扩展 _bt_readpage 中的 recheck 逻辑,支持双向(向前/向后)扫描。
o 保守规则:
仅当 pstate.finaltup 强烈建议继续扫描时(如相邻页可能有匹配数据),才触发新逻辑。
对用户的影响
o 性能提升:包含数组的查询(尤其是元素密集的情况)执行速度更快。
o 透明优化:无需修改查询或配置,由优化器自动应用。
o 兼容性:与现有 SAOP(Scalar Array Op)数组和未来的 Skip Scan 优化兼容。
技术背景
o 相关提交:
o 初始 recheck 机制(commit 5bf748b8)用于处理高键截断问题。
o 扩展 recheck(commit 79fa7b3b)支持 -inf 属性的特殊匹配。
o 未来计划:
支持 Skip Scan,动态生成扫描键(类似数组但更灵活),进一步优化范围查询。
总结
此补丁通过优化扫描调度逻辑,显著减少了数组查询时的索引遍历开销,为后续高级优化(如 Skip Scan)奠定了基础。核心思想是“利用邻近页的连续性,避免无意义的索引树重遍历”。
相关推荐
-
- 驱动网卡(怎么从新驱动网卡)
-
网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...
-
2026-01-30 00:37 liuian
- win10更新助手装系统(微软win10更新助手)
-
1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...
- windows11专业版密钥最新(windows11专业版激活码永久)
-
Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...
-
- 手机删过的软件恢复(手机删除过的软件怎么恢复)
-
操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...
-
2026-01-29 23:55 liuian
- 一键ghost手动备份系统步骤(一键ghost 备份)
-
步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。 步骤...
- 怎么创建局域网(怎么创建局域网打游戏)
-
1、购买路由器一台。进入路由器把dhcp功能打开 2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。 3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...
- 精灵驱动器官方下载(精灵驱动手机版下载)
-
是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...
- 一键还原系统步骤(一键还原系统有哪些)
-
1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。 2、在弹出的“准备安装”窗口中,可...
- 电脑加速器哪个好(电脑加速器哪款好)
-
我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...
- 任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)
-
是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...
- u盘怎么恢复文件(u盘文件恢复的方法)
-
开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...
- 系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)
-
1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...
-
- 剪贴板权限设置方法(剪贴板访问权限)
-
1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...
-
2026-01-29 21:37 liuian
- 平板系统重装大师(平板重装win系统)
-
如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...
- 联想官网售后服务网点(联想官网售后服务热线)
-
联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...
- 一周热门
-
-
用什么工具在Win中查看8G大的log文件?
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
RK3588-HDMIRX(瑞芯微rk3588芯片手册)
-
用纯Python轻松构建Web UI:Remi 动态更新,实时刷新界面内容
-
tplink无线路由器桥接教程(tplink路由器如何进行无线桥接)
-
windows11专业版密钥最新(windows11专业版激活码永久)
-
R语言 | CNS绘图第1款——linkET万物皆可连
-
都说Feign是RPC,没有侵入性,为什么我的代码越来越像 C++
-
如何在 Ubuntu 命令行中使用 Wireshark 进行抓包?
-
玩转命令行:7 个高效 Linux 命令技巧,助你事半功倍!
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
