百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

PostgreSQL 18 - 索引启发式扫描 优化 in , = any(array) 多值匹配性能

liuian 2025-07-06 14:04 24 浏览

当数据库在处理 WHERE column = ANY(array) , WHERE column in (...) 这类多个条件匹配的查询时, 如果使用索引扫描, 原始扫描逻辑如下:

页1 → 结束 → 重启扫描 → 页2 → 结束 → 重启扫描 → 页3...  

以上扫描逻辑在某些情况下会浪费CPU和IO, 例如条件在同一个或密集在一些有序block内时. 例如 in (1,2,3,4,...) 显然会在相邻索引叶子页面里. PostgreSQL 18 引入了一个扫描优化, 启发式扫描:

新逻辑:页1 → 页2(直接步进) → 页3(直接步进)...   

如果原始扫描(primitive scan)已经从初始叶子页向右或向左移动到相邻页(说明匹配条目可能密集分布),则不会立即结束扫描。不需要每次都重新从btree的root开始扫描, 而是在叶子节点直接步进.

https://git.postgresql.org/gitweb/?p=postgresql.git;a=commit;h=9a2e2a285a149490a69a7bd92dd618bb7ca975b3

Improve nbtree array primitive scan scheduling.  
author Peter Geoghegan <pg@bowt.ie>   
Sat, 22 Mar 2025 17:02:18 +0000 (13:02 -0400)  
committer Peter Geoghegan <pg@bowt.ie>   
Sat, 22 Mar 2025 17:02:18 +0000 (13:02 -0400)  
commit 9a2e2a285a149490a69a7bd92dd618bb7ca975b3  
tree f4871e5e813c243c710dc63e67023b8216899ed8 tree  
parent e215166c9c810950cff101cc098e66c8758538fa commit | diff  
Improve nbtree array primitive scan scheduling.  

Add a new scheduling heuristic: don't end the ongoing primitive index  
scan immediately (at the point where _bt_advance_array_keys notices that  
the next set of matching tuples must be on a later page) if the primscan  
already managed to step right/left from its first leaf page.  Schedule a  
recheck against the next sibling leaf page's finaltup instead.  

The new heuristic tends to avoid scenarios where the top-level scan  
repeatedly starts and ends primitive index scans that each read only one  
leaf page from a group of neighboring leaf pages.  Affected top-level  
scans will now tend to step forward (or backward) through the index  
instead, without wasting cycles on descending the index anew.  

The recheck mechanism isn't exactly new.  But up until now it has only  
been used to deal with edge cases involving high key finaltups with one  
or more truncated -inf attributes that _bt_advance_array_keys deemed  
"provisionally satisfied" (satisfied for the purposes of allowing the  
scan to step onto the next page, subject to recheck once on that page).  
The mechanism was added by commit 5bf748b8, which invented the general  
concept of primitive scan scheduling.  It was later enhanced by commit  
79fa7b3b, which taught it about cases involving -inf attributes that  
satisfy inequality scan keys required in the opposite-to-scan direction  
only (arguably, they should have been covered by the earliest version).  
Now the recheck mechanism can be applied based on scan-level heuristics,  
which have nothing to do with truncated high keys.  Now rechecks might  
be performed by _bt_readpage when scanning in _either_ scan direction.  

The theory behind the new heuristic is that any primitive scan that  
makes it past its first leaf page is one that is already likely to have  
arrays whose key values match index tuples that are closely clustered  
together in the index.  The rules that determine whether we ever get  
past the first page are still conservative (that'll still only happen  
when pstate.finaltup strongly suggests that it's the right thing to do).  
Surviving past the first leaf page is a strong signal in itself.  
  
Preparation for an upcoming patch that will add skip scan optimizations  
to nbtree.  That'll work by adding skip arrays, which behave similarly  
to SAOP arrays, but generate their elements procedurally and on-demand.  

Note that this commit isn't specifically concerned with skip arrays; the  
scheduling logic doesn't (and won't) condition anything on whether the  
scan uses skip arrays, SAOP arrays, or some combination of the two  
(which seems like a good general principle for _bt_advance_array_keys).  
While the problems that this commit ameliorates are more likely with  
skip arrays (at least in practice), SAOP arrays (or those with very  
dense, contiguous array elements) are also affected.  
  
Author: Peter Geoghegan <pg@bowt.ie>  
Reviewed-By: Matthias van de Meent <boekewurm+postgres@gmail.com>  
Discussion: https://postgr.es/m/CAH2-Wzkz0wPe6+02kr+hC+JJNKfGtjGTzpG3CFVTQmKwWNrXNw@mail.gmail.com  

AI 解读

解读:nbtree 数组原始扫描调度优化补丁

补丁目标

优化 PostgreSQL 中 B 树索引(nbtree)在处理包含数组的查询时的扫描效率,减少因频繁重启扫描导致的性能损耗。

问题背景

o 场景:当使用 WHERE column = ANY(array) 这类数组条件查询时,优化器会生成多个扫描键(scan keys),每个键对应数组中的一个元素。
o
原始逻辑:若扫描发现下一个匹配的元组在后续页面,会立即结束当前扫描,重新开始新的扫描(从根节点逐层下探到叶子页)。
o
缺陷:若数组元素对应的索引条目集中在相邻的叶子页中,频繁重启扫描会导致重复的索引遍历,浪费 CPU 和 I/O 资源。

核心改进

  1. 新启发式规则
    o
    触发条件:如果原始扫描(primitive scan)已经从初始叶子页向右或向左移动到相邻页(说明匹配条目可能密集分布),则不会立即结束扫描。
    o
    行为变更:安排在下个兄弟叶子页的 finaltup(页末元组)处重新检查,直接步进到相邻页继续扫描,避免重新遍历索引树。
  2. Recheck 机制的扩展
    o
    原用途:仅处理高键(high key)被截断的特殊情况(如 -inf 属性匹配)。
    o
    新用途:基于扫描级别的启发式决策,即使没有高键问题,也会触发重新检查相邻页。

技术原理

o finaltup 的作用
每个叶子页的最后一个元组(finaltup)用于判断后续页是否可能存在匹配数据。若当前页的 finaltup 符合条件,则继续扫描下一个页。
o
示例流程

原始逻辑:页1 → 结束 → 重启扫描 → 页2 → 结束 → 重启扫描 → 页3...  
新逻辑:页1 → 页2(直接步进) → 页3(直接步进)...  

性能优化效果

o 减少索引遍历:避免重复从根节点下探到叶子页,减少 CPU 和磁盘 I/O。
o
适用场景
o
密集分布的数组元素:如查询 WHERE id IN (1, 2, 3),且这些 ID 对应的索引条目集中在相邻页。
o
未来 Skip Scan 优化:为后续动态生成扫描键(如范围扫描)提供基础,进一步提升复杂查询效率。

实现细节

o 代码改动
o 修改 _bt_advance_array_keys 逻辑,增加对“是否已移动过页面”的判断。
o 扩展 _bt_readpage 中的 recheck 逻辑,支持双向(向前/向后)扫描。
o
保守规则
仅当 pstate.finaltup 强烈建议继续扫描时(如相邻页可能有匹配数据),才触发新逻辑。

对用户的影响

o 性能提升:包含数组的查询(尤其是元素密集的情况)执行速度更快。
o
透明优化:无需修改查询或配置,由优化器自动应用。
o
兼容性:与现有 SAOP(Scalar Array Op)数组和未来的 Skip Scan 优化兼容。

技术背景

o 相关提交
o 初始 recheck 机制(commit 5bf748b8)用于处理高键截断问题。
o 扩展 recheck(commit 79fa7b3b)支持 -inf 属性的特殊匹配。
o
未来计划
支持 Skip Scan,动态生成扫描键(类似数组但更灵活),进一步优化范围查询。

总结

此补丁通过优化扫描调度逻辑,显著减少了数组查询时的索引遍历开销,为后续高级优化(如 Skip Scan)奠定了基础。核心思想是“利用邻近页的连续性,避免无意义的索引树重遍历”。

相关推荐

Python中的列表详解及示例_python列表讲解

艾瑞巴蒂干货来了,数据列表,骚话没有直接来吧列表(List)是Python中最基本、最常用的数据结构之一,它是一个有序的可变集合,可以包含任意类型的元素。列表的基本特性有序集合:元素按插入顺序存储可变...

PowerShell一次性替换多个文件的名称

告别繁琐的文件重命名,使用PowerShell语言批量修改文件夹中的文件名,让您轻松完成重命名任务在日常工作中,我们经常需要对大量文件进行重命名,以便更好地管理和组织。之前,我们曾介绍过使用Pytho...

小白必看!Python 六大数据类型增删改查秘籍,附超详细代码解析

在Python中,数据类型可分为可变类型(如列表、字典、集合)和不可变类型(如字符串、元组、数值)。下面针对不同数据类型详细讲解其增删改查操作,并给出代码示例、输出结果及分析总结。1.列表(Li...

python数据容器之列表、元组、字符串

数据容器分为5类,分别是:列表(list)、元组(tuple)、字符串(str)、集合(set)、字典(dict)list#字面量[元素1,元素2,元素3,……]#定义变量变量名称=[元素1,元素...

python列表(List)必会的13个核心技巧(附实用方法)

列表(List)是Python入门的关键步骤,因为它是编程中最常用的数据结构之一。以下是高效掌握列表的核心技巧和实用方法:一、理解列表的本质可变有序集合:可随时修改内容,保持元素顺序混合类型:一个列表...

如何利用python批量修改文件名_python如何对文件进行批量命名

很多语言都可以做到批量修改文件名,今天我就给大家接受一下Python的方法,首选上需求。图片中有10个txt文件,现在我需要在这些文件名的前面全部加一个“学生”,可以吗?见证奇迹的时刻到了。我是怎么做...

Python中使用re模块实现正则表达式的替换字符串操作

#编程语言#我是"学海无涯自学不惜!",关注我,一同学习简单易懂的Python编程。0基础学python(83)Python中,导入re模块后还可以进行字符串的替换操作,就是sub()...

python列表十大常见问题,你遇到第几个?

Python列表常见问题及解决方案1.修改列表时的常见陷阱问题:在遍历时修改列表#错误做法:在遍历时删除元素会导致意外结果numbers=[1,2,3,4,5,6]forn...

python入门007:编辑列表_python列表怎么写入文件

一、列表的编辑操作列表创建后,随着程序的运行,可以通过对列表元素的增删改操作来编辑列表。1、修改列表元素的值修改列表元素的操作方法与访问列表元素的方法类似。例如,要修改列表元素的值,先指定列表及元素...

Python教程:在python中修改元组详解

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《在Python中修改元组详解》。本知识点主要内容有:在Python中直接使用赋值运算符“=”给元组重新赋值、在Python中使用加赋值运...

Python列表(List)一文全掌握:核心知识点+20实战练习题

Python列表(List)知识点教程一、列表的定义与特性定义:列表是可变的有序集合,用方括号[]定义,元素用逗号分隔。list1=[1,"apple",3.14]lis...

Python教程-列表复制_python对列表进行复制

作为软件开发者,我们总是努力编写干净、简洁、高效的代码。Python列表是一种多功能的数据结构,它允许你存储一个项目的集合。在Python中,列表是可变的,这意味着你可以在创建一个列表后改变它的...

Python入门学习教程:第 6 章 列表

6.1什么是列表?在Python中,列表(List)是一种用于存储多个元素的有序集合,它是最常用的数据结构之一。列表中的元素可以是不同的数据类型,如整数、字符串、浮点数,甚至可以是另一个列表。列...

Python列表、元组、字典和集合_python中的列表元组和字典

Python中的列表(List)、元组(Tuple)、字典(Dict)和集合(Set)是四种最常用的核心数据结构。掌握它们的基础操作只是第一步,真正发挥威力的是那些高级用法和技巧。首先我们先看一下这...

学习编程第167天 python编程 使用format方法灵活替换字符串

今天学习的是刘金玉老师零基础Python教程第51期,主要内容是python编程使用format方法灵活替换字符串。一、format方法(一)format方法是字符串自带的方法,使用的format方法...