给大象插上翅膀:DuckDB(pg_duckdb)在 Postgres 中实现更快速的分析
liuian 2025-08-31 04:04 7 浏览
在数据管理领域,PostgreSQL(pg)作为一款出色的在线事务处理(OLTP)数据库,凭借其强大的事务处理能力和可靠性,赢得了广泛的认可。然而,当面对大规模数据分析时,pg 有时显得局促,响应速度也未能满足高效分析的需求。
近一段时间来,DuckDB 作为一款高效的列式数据库引擎,正在数据分析领域引起越来越多的关注。其轻量级的设计和强大的查询性能,使其在处理大规模数据集时展现出优异的表现,DuckDB 可以为数据湖(Data Lake)或湖屋(Lakehouse)架构带来了快速、便捷的分析能力,也是推动数据分析向更高效、灵活的方向发展的重要组件。
在这种情况下,pg_duckdb 作为一项创新的扩展,为 PostgreSQL 注入了新的活力,仿佛为这头大象插上了翅膀。通过将 DuckDB 的分析引擎与 PostgreSQL 深度集成,pg_duckdb 提供了一种便捷、简单且高效的数据分析架构,使用户能够快速执行复杂的分析查询,充分挖掘数据的潜力。
pg_duckdb 是一个 PostgreSQL 扩展,将 DuckDB 的分析引擎直接集成到 PostgreSQL 中,允许在传统事务工作负载上支持快速进行数据分析查询。接下来的内容我们快速体验一下,感受高效的数据分析能力.
镜像安装带有pg_duckdb的PG
最简单的入门方法是使用提供的 Docker 镜像,该镜像包含了最新版本的 pg_duckdb 扩展预安装的 PostgreSQL。详细参见:https://github.com/duckdb/pg_duckdb ; 为了便于测试,推了镜像到阿里云的ACR上,下面命令创建测试实例容器:
docker run -d --name pg_duckdb -p 54322:5432 -e POSTGRES_HOST_AUTH_METHOD=trust registry.cn-hangzhou.aliyuncs.com/smartnotebook/pg_duckdb:17-v0.1.0
在psql 输入:SELECT * FROM pg_extension; 可看到pg 的扩展项包括:gp_duckdb .
PostgreSQL 是一款事务性数据库,而非分析性数据库。它非常适合查找、小规模更新以及在仔细设置索引和连接关系后运行查询。然而,当需要在整个数据集上运行临时分析查询时,它并不是最佳选择。
尽管 PostgreSQL 并不是专门为分析设计的,但它常常被用于分析,因为数据随时可用,便于启动。然而,随着数据量的增加,以及对更复杂的聚合和分组分析查询的需求,用户常常会遇到限制。这时,像 DuckDB 这样的分析数据库引擎便能派上用场。
通过 pg_duckdb,你可以在 PostgreSQL 中使用 DuckDB 执行引擎处理已存储的数据,对于某些查询,这可能会显著提升性能。以下是一个查询示例,显示了显著的性能提升;
在带有pg_duckdb的PG上测试TPC-DS 用例1
让我们尝试 TPC-DS 基准测试套件中的第一个查询(用例1),该查询包含在 TPC-DS DuckDB 扩展中。详细参见:《使用SNB 进行DuckDB的TPC-DS 测试:性能强悍》
使用该扩展,在duckdb 使用规模因子 1(即总数据为 1GB左右)生成 TPC-DS 数据集,然后导出再加载到没有索引的 PostgreSQL 中。下面代码是smarnotebook 执行dfSQL(duckdb 引擎)或在duckdb 内执行SQL生成tpcds的测试数据集。
INSTALL tpcds;
LOAD tpcds;
CALL dsdgen(sf = 1);
EXPORT DATABASE 'public' (FORMAT CSV, DELIMITER '|');
-- PRAGMA tpcds(1);
导出后的数据文件和SQL 脚本如下:
将数据迁移到带有pg_duckdb插件的PG 容器中,执行下面的指令,就可以tpcds 数据集加载到pg数据库中。
export schema_name=public
sed 's/COPY/\\copy/' "$schema_name/load.sql" >"$schema_name/load-psql.sql"
psql -v ON_ERROR_STOP=1 "options=--search-path=$schema_name" -c "CREATE SCHEMA IF NOT EXISTS $schema_name" -f "$schema_name/schema.sql" -f "$schema_name/load-psql.sql" -c "ANALYZE;"
加载收据后,执行用例1 的SQL, 用例SQL参见
:https://github.com/duckdb/duckdb/tree/main/extension/tpcds/dsdgen/queries ; 下面在smartnotebook 内创建数据源连接,并分别以pg 和pg_duckdb 内核执行(设置参数SET duckdb.force_execution = True | False):
SET duckdb.force_execution = True;
WITH customer_total_return AS
(SELECT sr_customer_sk AS ctr_customer_sk,
sr_store_sk AS ctr_store_sk,
sum(sr_return_amt) AS ctr_total_return
FROM store_returns,
date_dim
WHERE sr_returned_date_sk = d_date_sk
AND d_year = 2000
GROUP BY sr_customer_sk,
sr_store_sk)
SELECT c_customer_id
FROM customer_total_return ctr1,
store,
customer
WHERE ctr1.ctr_total_return >
(SELECT avg(ctr_total_return)*1.2
FROM customer_total_return ctr2
WHERE ctr1.ctr_store_sk = ctr2.ctr_store_sk)
AND s_store_sk = ctr1.ctr_store_sk
AND s_state = 'TN'
AND ctr1.ctr_customer_sk = c_customer_sk
ORDER BY c_customer_id
LIMIT 5;
SET duckdb.force_execution = False 的情况下(使用PG 自有的方式)执行结果如下,执行时间为250秒。
SET duckdb.force_execution = True 的情况下(使用gp_duckdb的duckdb 内核)执行结果如下,执行时间为0.3秒。
性能足足提升1000倍。
在数据湖(Data Lake)或湖屋(Lakehouse)中使用 pg_duckdb
DuckDB 原生支持在外部对象存储上读取和写入文件,因此非常适合用于查询数据湖中的数据。DuckDB 还可以从 Iceberg 和 Delta 中读取数据,让你能够利用湖屋架构。以下测试代码片段使用了来自公共桶的数据集。
分析 Parquet 文件
以下查询使用 pg_duckdb 查询存储在 S3 中的 Parquet 文件,以找出 2020-2022 年美国最受欢迎的电视节目。
SELECT Title, max("Days In Top 10")::int as MaxDaysInTop10
FROM read_parquet('s3://duckdb-md-dataset-121/netflix_daily_top_10.parquet')
AS ("Days In Top 10" varchar, Title varchar, Type varchar)
WHERE Type = 'TV Show'
GROUP BY Title
ORDER BY MaxDaysInTop10 DESC
LIMIT 5;
分析 Iceberg 表
为了查询 Iceberg 中的数据,你首先需要安装 DuckDB Iceberg 扩展。在 pg_duckdb 中,安装 duckdb 扩展可以使用 duckdb.install_extension(<扩展名称>) 函数。
-- Install the iceberg extension
SELECT duckdb.install_extension('iceberg');
-- Total quantity of items ordered for each `l_shipmode`
SELECT l_shipmode, SUM(l_quantity) AS total_quantity
FROM iceberg_scan('s3://us-prd-motherduck-open-datasets/iceberg/lineitem_iceberg', allow_moved_paths := true)
AS l(l_shipmode varchar, l_quantity int)
GROUP BY l_shipmode
ORDER BY total_quantity DESC;
写回数据湖(Data Lake)或湖屋(Lakehouse)
在 pg_duckdb 中,对数据湖的访问不仅限于只读操作,你还可以使用 COPY 命令进行写回。请注意,你可以混合使用原生 PostgreSQL 数据,因此可以利用此功能将数据从 PostgreSQL 表导出到外部数据湖存储。
COPY (
SELECT Title, max("Days In Top 10")::int AS MaxDaysInTop10
FROM read_parquet('s3://us-prd-motherduck-open-datasets/netflix/netflix_daily_top_10.parquet')
AS ("Days In Top 10" varchar, Title varchar, Type varchar)
WHERE Type = 'TV Show'
GROUP BY Title
ORDER BY MaxDaysInTop10 DESC
LIMIT 5
) TO '/home/results.parquet';
pg_duckdb 虽然处于测试阶段,未来的发展备受期待。DuckDB 的成功源于其简单性,这一优势将直接带给 PostgreSQL 用户,使其在现有数据库中发挥分析的作用和价值。
相关推荐
- 小程序微信登录反映慢原来因为login和getUserProfile关系造成的
-
在我开发算盘记账APP小程序的过程中,遇到了UNIAPP开发微信小程序微信登录反映特别慢的问题。经反复查找原因,原来是因为微信登录界面代码的uni.login中包含了uni.getUserProfil...
- uniapp主题切换功能的方式终结篇(全平台兼容)
-
前面我已经给大家介绍了两种主题切换的方式,每种方式各有自己的优势与缺点,例如“scss变量+vuex”方式兼容好但不好维护与扩展,“scss变量+require”方式好维护但兼容不好,还不清楚的可点下...
- UNI又来秀了 新功能不懂玩 这份说明书带你玩遍所有潮科技
-
当您在车辆仪表盘上看到如下图标时是否一脸迷茫?是否手忙脚乱翻用户手册找不到答案?近段时间,有不少车主反馈长安UNI-T很多功能太新潮了,自己有点跟不上时代的节奏了……莫慌,本期推出长安UNI-T“AR...
- 一款商用品质的开源商城系统(Yii2+Vue2.0+uniapp)
-
一、项目简介这是一套很成熟的开源商城系统【开店星】,之前推过一次,后台感兴趣的还不少,今天再来详细介绍一下:基于Yii2+Vue2.0+uniapp框架研发,代码质量堪称商用品质,下载安装无门槛,UI...
- 惊了,这个国产软件居然这么牛,比 uniapp 还全能
-
最近跟同事闲聊,大家都在吐槽一个问题:!App是越做越像平台了,但开发却越做越痛苦了。你想加个活动页,产品说今晚上线;你想做个业务扩展,运营说要不你再写个低代码工具;你想适配鸿蒙,领导说最好做个...
- JeecgUniapp 全新版本 3.0 发布,采用 uniapp+vue3 最新架构
-
项目介绍JeecgUniapp是JeecgBoot的配套APP移动框架,项目采用Uniapp、Vue3.0、Vite、Wot-design-uni、TypeScript等最新技术栈,包括...
- AIGC+UniApp:自动生成跨平台代码实践
-
一、颠覆传统的开发革命2024年GitHub统计显示,采用AIGC辅助的UniApp项目平均开发效率提升217%。我们在某APP项目中,用ChatGPT-4o生成基础框架代码,原本需要3人日的登录模块...
- 长安引力UNI-K iDD OTA无法升级,还算问题吗?车主小题大做?
-
OTA无法升级,在我看来都不算问题。因为它本来就是锦上添花的配置!并不是雪中送炭的配置!车还可以正常开,导航用手机就可以,听歌连手机蓝牙就可以。但是要说OTA这个配置,最早是特斯拉干的。2012年特斯...
- uni-app 多环境部署方案_开发uniapp的环境配置
-
前言最近几周都在处理公司的移动业务,而为在后期能统一多端,解放自己,迎合公司的技术栈;选用了uni-app来开发。开发前期重新对公司移动业务做深入了解,重构大部分业务逻辑,也抽离出基础组件;但实际...
- 3分钟拥有一个属于自己的博客网站「腾讯云篇」
-
一、前言想要搭建一个让全世界的人都可以访问的网站,我们最少需要准备三样东西:①服务器腾讯云服务器首年低至40元/年,「链接」阿里云服务器新用户可以免费使用6个月,新人特惠_云产品推荐_云服务器-阿里云...
- 3月18号分享一个最新Cursor无限续杯的方法,亲测有效~
-
1、执行脚本MacOS&Linux系统curl-fsSLhttps://aizaozao.com/accelerate.php/https://raw.githubusercontent.co...
- 什么是IPFS,如何搭建IPFS节点_ipfs简单理解
-
IPFS是一个分布式系统,用于存储和访问文件、网站、应用程序和数据。星际文件系统(InterPlanetaryFileSystem).IPFS是一个分布式的web,点到点超媒体协议.可以...
- Claude Code:完爆 Cursor 的编程体验
-
前言最近,听说ClaudeCode这款代码辅助编写产品很强,有人把Cursor比作实习生水平,ClaudeCode比作高级工程师水平。起初不以为意,因为特殊原因,Claude无法直接访问。然而,...
- 10分钟搞定gitlab-ci自动化部署_gitlab ci 自动化部署
-
gitlab-ci是持续集成工具/自动化部署工具,类似jenkins。持续集成是将代码集成到共享存储库并尽可能早地自动构建/测试每个更改的实践-通常一天几次。概述在编码完成时都会进行打包发布...
- 「 小白玩树莓派系列」Raspberry Pi 4 Ubuntu USB 大容量存储启动指南
-
Canonical对RaspberryPi的官方支持已经走过了漫长的道路。我们现在可以在Pi安装官方支持的Ubuntu!在我之前的Pi上的Ubuntu18.04指南中,Raspb...
- 一周热门
-
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
飞牛OS入门安装遇到问题,如何解决?
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
- 最近发表
-
- 小程序微信登录反映慢原来因为login和getUserProfile关系造成的
- uniapp主题切换功能的方式终结篇(全平台兼容)
- UNI又来秀了 新功能不懂玩 这份说明书带你玩遍所有潮科技
- 一款商用品质的开源商城系统(Yii2+Vue2.0+uniapp)
- 惊了,这个国产软件居然这么牛,比 uniapp 还全能
- JeecgUniapp 全新版本 3.0 发布,采用 uniapp+vue3 最新架构
- AIGC+UniApp:自动生成跨平台代码实践
- 长安引力UNI-K iDD OTA无法升级,还算问题吗?车主小题大做?
- uni-app 多环境部署方案_开发uniapp的环境配置
- 3分钟拥有一个属于自己的博客网站「腾讯云篇」
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)