PostgreSQL 18 - 索引启发式扫描 优化 in , = any(array) 多值匹配性能
liuian 2025-07-06 14:04 2 浏览
当数据库在处理 WHERE column = ANY(array) , WHERE column in (...) 这类多个条件匹配的查询时, 如果使用索引扫描, 原始扫描逻辑如下:
页1 → 结束 → 重启扫描 → 页2 → 结束 → 重启扫描 → 页3...
以上扫描逻辑在某些情况下会浪费CPU和IO, 例如条件在同一个或密集在一些有序block内时. 例如 in (1,2,3,4,...) 显然会在相邻索引叶子页面里. PostgreSQL 18 引入了一个扫描优化, 启发式扫描:
新逻辑:页1 → 页2(直接步进) → 页3(直接步进)...
如果原始扫描(primitive scan)已经从初始叶子页向右或向左移动到相邻页(说明匹配条目可能密集分布),则不会立即结束扫描。不需要每次都重新从btree的root开始扫描, 而是在叶子节点直接步进.
https://git.postgresql.org/gitweb/?p=postgresql.git;a=commit;h=9a2e2a285a149490a69a7bd92dd618bb7ca975b3
Improve nbtree array primitive scan scheduling.
author Peter Geoghegan <pg@bowt.ie>
Sat, 22 Mar 2025 17:02:18 +0000 (13:02 -0400)
committer Peter Geoghegan <pg@bowt.ie>
Sat, 22 Mar 2025 17:02:18 +0000 (13:02 -0400)
commit 9a2e2a285a149490a69a7bd92dd618bb7ca975b3
tree f4871e5e813c243c710dc63e67023b8216899ed8 tree
parent e215166c9c810950cff101cc098e66c8758538fa commit | diff
Improve nbtree array primitive scan scheduling.
Add a new scheduling heuristic: don't end the ongoing primitive index
scan immediately (at the point where _bt_advance_array_keys notices that
the next set of matching tuples must be on a later page) if the primscan
already managed to step right/left from its first leaf page. Schedule a
recheck against the next sibling leaf page's finaltup instead.
The new heuristic tends to avoid scenarios where the top-level scan
repeatedly starts and ends primitive index scans that each read only one
leaf page from a group of neighboring leaf pages. Affected top-level
scans will now tend to step forward (or backward) through the index
instead, without wasting cycles on descending the index anew.
The recheck mechanism isn't exactly new. But up until now it has only
been used to deal with edge cases involving high key finaltups with one
or more truncated -inf attributes that _bt_advance_array_keys deemed
"provisionally satisfied" (satisfied for the purposes of allowing the
scan to step onto the next page, subject to recheck once on that page).
The mechanism was added by commit 5bf748b8, which invented the general
concept of primitive scan scheduling. It was later enhanced by commit
79fa7b3b, which taught it about cases involving -inf attributes that
satisfy inequality scan keys required in the opposite-to-scan direction
only (arguably, they should have been covered by the earliest version).
Now the recheck mechanism can be applied based on scan-level heuristics,
which have nothing to do with truncated high keys. Now rechecks might
be performed by _bt_readpage when scanning in _either_ scan direction.
The theory behind the new heuristic is that any primitive scan that
makes it past its first leaf page is one that is already likely to have
arrays whose key values match index tuples that are closely clustered
together in the index. The rules that determine whether we ever get
past the first page are still conservative (that'll still only happen
when pstate.finaltup strongly suggests that it's the right thing to do).
Surviving past the first leaf page is a strong signal in itself.
Preparation for an upcoming patch that will add skip scan optimizations
to nbtree. That'll work by adding skip arrays, which behave similarly
to SAOP arrays, but generate their elements procedurally and on-demand.
Note that this commit isn't specifically concerned with skip arrays; the
scheduling logic doesn't (and won't) condition anything on whether the
scan uses skip arrays, SAOP arrays, or some combination of the two
(which seems like a good general principle for _bt_advance_array_keys).
While the problems that this commit ameliorates are more likely with
skip arrays (at least in practice), SAOP arrays (or those with very
dense, contiguous array elements) are also affected.
Author: Peter Geoghegan <pg@bowt.ie>
Reviewed-By: Matthias van de Meent <boekewurm+postgres@gmail.com>
Discussion: https://postgr.es/m/CAH2-Wzkz0wPe6+02kr+hC+JJNKfGtjGTzpG3CFVTQmKwWNrXNw@mail.gmail.com
AI 解读
解读:nbtree 数组原始扫描调度优化补丁
补丁目标
优化 PostgreSQL 中 B 树索引(nbtree)在处理包含数组的查询时的扫描效率,减少因频繁重启扫描导致的性能损耗。
问题背景
o 场景:当使用 WHERE column = ANY(array) 这类数组条件查询时,优化器会生成多个扫描键(scan keys),每个键对应数组中的一个元素。
o 原始逻辑:若扫描发现下一个匹配的元组在后续页面,会立即结束当前扫描,重新开始新的扫描(从根节点逐层下探到叶子页)。
o 缺陷:若数组元素对应的索引条目集中在相邻的叶子页中,频繁重启扫描会导致重复的索引遍历,浪费 CPU 和 I/O 资源。
核心改进
- 新启发式规则
o 触发条件:如果原始扫描(primitive scan)已经从初始叶子页向右或向左移动到相邻页(说明匹配条目可能密集分布),则不会立即结束扫描。
o 行为变更:安排在下个兄弟叶子页的 finaltup(页末元组)处重新检查,直接步进到相邻页继续扫描,避免重新遍历索引树。 - Recheck 机制的扩展
o 原用途:仅处理高键(high key)被截断的特殊情况(如 -inf 属性匹配)。
o 新用途:基于扫描级别的启发式决策,即使没有高键问题,也会触发重新检查相邻页。
技术原理
o finaltup 的作用:
每个叶子页的最后一个元组(finaltup)用于判断后续页是否可能存在匹配数据。若当前页的 finaltup 符合条件,则继续扫描下一个页。
o 示例流程:
原始逻辑:页1 → 结束 → 重启扫描 → 页2 → 结束 → 重启扫描 → 页3...
新逻辑:页1 → 页2(直接步进) → 页3(直接步进)...
性能优化效果
o 减少索引遍历:避免重复从根节点下探到叶子页,减少 CPU 和磁盘 I/O。
o 适用场景:
o 密集分布的数组元素:如查询 WHERE id IN (1, 2, 3),且这些 ID 对应的索引条目集中在相邻页。
o 未来 Skip Scan 优化:为后续动态生成扫描键(如范围扫描)提供基础,进一步提升复杂查询效率。
实现细节
o 代码改动:
o 修改 _bt_advance_array_keys 逻辑,增加对“是否已移动过页面”的判断。
o 扩展 _bt_readpage 中的 recheck 逻辑,支持双向(向前/向后)扫描。
o 保守规则:
仅当 pstate.finaltup 强烈建议继续扫描时(如相邻页可能有匹配数据),才触发新逻辑。
对用户的影响
o 性能提升:包含数组的查询(尤其是元素密集的情况)执行速度更快。
o 透明优化:无需修改查询或配置,由优化器自动应用。
o 兼容性:与现有 SAOP(Scalar Array Op)数组和未来的 Skip Scan 优化兼容。
技术背景
o 相关提交:
o 初始 recheck 机制(commit 5bf748b8)用于处理高键截断问题。
o 扩展 recheck(commit 79fa7b3b)支持 -inf 属性的特殊匹配。
o 未来计划:
支持 Skip Scan,动态生成扫描键(类似数组但更灵活),进一步优化范围查询。
总结
此补丁通过优化扫描调度逻辑,显著减少了数组查询时的索引遍历开销,为后续高级优化(如 Skip Scan)奠定了基础。核心思想是“利用邻近页的连续性,避免无意义的索引树重遍历”。
相关推荐
- MySQL合集-mysql5.7及mysql8的一些特性
-
1、Json支持及虚拟列1.1jsonJson在5.7.8原生支持,在8.0引入了json字段的部分更新(jsonpartialupdate)以及两个聚合函数,JSON_OBJECTAGG,JS...
- MySQL 双表架构在房产中介房源管理中的深度实践
-
MySQL房源与价格双表封神:降价提醒实时推送客户房产中介实战:MySQL空间函数精准定位学区房MySQL狠招:JSON字段实现房源标签自由组合筛选房源信息与价格变更联动:MySQL黄金搭档解决客户看...
- MySQL 5.7 JSON 数据类型使用总结
-
从MySQL5.7.8开始,MySQL支持原生的JSON数据类型。MySQL支持RFC7159定义的全部json数据类型,具体的包含四种基本类型(strings,numbers,boolea...
- MySQL 8.0 SQL优化黑科技,面试官都不一定知道!
-
前言提到SQL优化,大多数人想到的还是那些经典套路:建索引、避免全表扫描、优化JOIN顺序…这些确实是基础,但如果你还停留在MySQL5.7时代的优化思维,那就out了。MySQL8.0已经发布好...
- 如何在 MySQL 中使用 JSON 数据(mysql的json函数与实例)
-
在MySQL中学习“NoSQL”MySQL从5.7版本开始就支持JSON格式的数据类型,该数据类型支持JSON文档的自动验证和优化存储和访问。尽管JSON数据最好存储在MongoDB等...
- MySQL中JSON的存储原理(mysql中json字段操作)
-
前言:表中有json字段后,非索引查询性能变得非常糟糕起因是我有一张表,里面有json字段后,而当mysql表中有200w数据的时候,走非索引查询性能变得非常糟糕需要3到5s。因此对mysql的jso...
- mysql 之json字段详解(多层复杂检索)
-
MySQL5.7.8开始支持JSON数据类型。MySQL8.0版本中增加了对JSON类型的索引支持。示例表CREATETABLE`users`(`id`intNOTNULLAU...
- VMware vCenter Server 8.0U3b 发布下载,新增功能概览
-
VMwarevCenterServer8.0U3b发布下载,新增功能概览ServerManagementSoftware|vCenter请访问原文链接:https://sysin.or...
- Spring Boot 3.x 新特性详解:从基础到高级实战
-
1.SpringBoot3.x简介与核心特性1.1SpringBoot3.x新特性概览SpringBoot3.x是建立在SpringFramework6.0基础上的重大版...
- 如何设计Agent的记忆系统(agent记忆方法)
-
最近看了一张画Agent记忆分类的图我觉得分类分的还可以,但是太浅了,于是就着它的逻辑,仔细得写了一下在不同的记忆层,该如何设计和选型先从流程,作用,实力和持续时间的这4个维度来解释一下这几种记忆:1...
- Spring Boot整合MyBatis全面指南:从基础到高级应用(全网最全)
-
一、基础概念与配置1.1SpringBoot与MyBatis简介技术描述优点SpringBoot简化Spring应用开发的框架,提供自动配置、快速启动等特性快速开发、内嵌服务器、自动配置、无需X...
- 5大主流方案对比:MySQL千亿级数据线上平滑扩容实战
-
一、扩容方案剖析1、扩容问题在项目初期,我们部署了三个数据库A、B、C,此时数据库的规模可以满足我们的业务需求。为了将数据做到平均分配,我们在Service服务层使用uid%3进行取模分片,从而将数据...
- PostgreSQL 技术内幕(五)Greenplum-Interconnect模块
-
Greenplum是在开源PostgreSQL的基础上,采用MPP架构的关系型分布式数据库。Greenplum被业界认为是最快最具性价比的数据库,具有强大的大规模数据分析任务处理能力。Greenplu...
- 在实际操作过程中如何避免出现SQL注入漏洞
-
一前言本文将针对开发过程中依旧经常出现的SQL编码缺陷,讲解其背后原理及形成原因。并以几个常见漏洞存在形式,提醒技术同学注意相关问题。最后会根据原理,提供解决或缓解方案。二SQL注入漏洞的原理、形...
- 运维从头到尾安装日志服务器,看这一篇就够了
-
一、rsyslog部署1.1)rsyslog介绍Linux的日志记录了用户在系统上一切操作,看日志去分析系统的状态是运维人员必须掌握的基本功。rsyslog日志服务器的优势:1、日志统一,集中式管理...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
python使用fitz模块提取pdf中的图片
-
- 最近发表
-
- MySQL合集-mysql5.7及mysql8的一些特性
- MySQL 双表架构在房产中介房源管理中的深度实践
- MySQL 5.7 JSON 数据类型使用总结
- MySQL 8.0 SQL优化黑科技,面试官都不一定知道!
- 如何在 MySQL 中使用 JSON 数据(mysql的json函数与实例)
- MySQL中JSON的存储原理(mysql中json字段操作)
- mysql 之json字段详解(多层复杂检索)
- VMware vCenter Server 8.0U3b 发布下载,新增功能概览
- Spring Boot 3.x 新特性详解:从基础到高级实战
- 如何设计Agent的记忆系统(agent记忆方法)
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)