深入解析全新 AWS S3 Tables:重塑数据湖仓架构
liuian 2025-05-16 14:47 55 浏览
在 AWS re:Invent 2024 大会中,AWS 发布了 Amazon S3 Tables : 一项专为可扩展存储和管理结构化数据而设计的解决方案,基于 Apache Iceberg 开放表格式标准构建。在深入了解 Amazon S3 Tables 之前,我们需要先理解什么是“开放表格式”(Open Table Format, 简称 OTF)以及 Apache Iceberg。
什么是开放表格式(Open Table Format,OTF)?
在传统数据库中,读取数据通常涉及安装数据库软件、创建数据库、定义表结构(schema)和表或外部表,然后再从这些表中读取数据。而开放表格式则采取不同方式:
- 数据直接以文件形式(如 Apache Parquet、Apache ORC 或 Apache Avro)存储在数据湖中。
- 不需要将数据加载到数据库中,而是通过表格式协议将这些文件 组织并管理为“虚拟表”,就像它们存在于数据库中一样。
为了简化查询,可以使用例如 AWS Glue Catalog 这样的目录系统来注册这些虚拟表,进而让 Apache Spark、Trino、AWS Athena 等查询引擎 能够无缝访问和处理数据。
目前主流的开放表格式包括:
- Apache Iceberg
- Delta Lake
- Apache Hudi
这些格式因其 高性能、强可扩展性以及支持时间旅行查询和 schema 演化 等高级功能而受到广泛采用。
Apache Iceberg 简介
Apache Iceberg 是一款为数据湖中的大规模数据集设计的开源表格式,提供如下特性:
- 支持 ACID 事务,确保数据一致性;
- 支持 schema 演化,适应业务变化;
- 支持 时间旅行(Time Travel),便于历史数据回溯与审计。
Iceberg 提供了一种类似传统数据库的数据管理体验,让 AWS S3 这类云对象存储更具数据库特性,同时提升了数据分析任务的 性能、数据可靠性和灵活性。
S3 中的桶类型演进
在此次发布之前,Amazon S3 主要有两种类型的存储桶(bucket):
- 通用存储桶(General Purpose Bucket):最初的标准 S3 存储类型;
- 目录桶(Directory Bucket):在 2023 年 re:Invent 推出,属于 S3 Express,支持更快的性能和分层存储结构。
而在 2024 年,Amazon S3 Tables 引入了第三种桶类型:S3 Table Bucket —— 专门用于存储结构化表格数据,与 Apache Iceberg 深度集成,提供数据库级的数据管理体验。
S3 Tables
Amazon S3 Tables 是一种 在 S3 中托管的 Apache Iceberg 表,旨在让结构化数据(如每日交易记录、传感器读数或广告曝光等)存储和分析更加简单高效。这类数据以行和列的形式组织,类似于传统数据库中的表。将 Apache Iceberg 表直接集成到 Amazon S3 中的 全托管服务,标志着数据湖与数据仓库(湖仓)融合迈出了重要一步。
使用 S3 Tables 时,数据存储在一种名为 “表桶”(table bucket) 的特殊 S3 存储桶中。该桶以表为子资源进行组织,并原生支持 Apache Iceberg 格式,从而实现对表数据的高效管理与无缝查询。
用户可以使用标准 SQL 语句,结合 Amazon Athena、Amazon Redshift、Apache Spark 等主流工具,对这些表进行查询,数据分析变得直观且易于上手。S3 Tables 的设计目标是在控制存储成本的同时,显著提升查询性能。
S3 Table资源分类体系(New Taxonomy)
- Namespaces(命名空间):命名空间是对 S3 表的逻辑分组方式,用于更高效地组织和管理表。它们不是实际的物理资源(不像 S3 表或表桶那样存在),而是纯粹的组织工具,便于进行权限控制和数据管理的扩展。
- S3 表桶 & 表级策略(Table Bucket & Table Policies):现在,您可以为表桶(Bucket)和表(Table)分别编写资源级策略(Resource-Based Policies),同时也支持基于命名空间的策略管理。这增强了精细化的访问控制能力。
- 表的 ARN(Table ARN):每个 S3 表现在都拥有一个唯一的 ARN(Amazon Resource Name),用于唯一标识和编写资源访问策略,便于集成与权限管理。
- S3 Tables 接口终端节点(S3 Tables Endpoint):Amazon 为 S3 Tables 引入了全新的 接口终端节点(Interface Endpoint),这些终端节点是区域(Region)专属的,支持通过私有网络安全访问。
- S3 Tables 操作类 API(Operational APIs):Amazon 推出了全新的 API,用于执行表的基本操作,包括:istTable 、CreateTable、GetTableMetadataLocation、UpdateMetadataLocation、DeleteTable
- S3 Tables 管理类 API(Management APIs):为更好地进行表和桶的管理,AWS 还新增了以下 API:PutTablePolicy、PutTableBucketPolicy、PutTableMaintenanceConfig、PutTableBucketMaintenanceConfig
这些新能力标志着 S3 Tables 在数据治理、权限控制和操作自动化方面的全面进化。
S3 Tables 的核心优势与特性
Amazon S3 表兼具现代表存储系统的可扩展性、性能和可管理性。通过增强性能、确保表级安全性并优化存储成本,它们解决了大规模管理表格数据的核心挑战,使其成为一款强大的解决方案。
- 面向分析任务的性能优化
- 查询性能提升最高可达3倍,每秒事务数提升可达10倍(相较于用户自建 Iceberg 表+通用 S3 存储)。
- 自动进行 表维护、文件压缩和快照管理,持续优化查询效率、降低存储成本。
- 无缝对接 AWS 分析服务
- 支持 Apache Iceberg 标准,与 Amazon Athena、Redshift、EMR 等分析服务无缝对接。
- 用户可继续使用现有的工具链和技能,简化数据处理流程,提高开发效率。
- 简化的数据管理与治理
- 引入 “表桶(table buckets)” 的概念,为表数据专门设计的 S3 存储类型。
- 支持表级权限控制,便于数据治理。
- 原生支持 Iceberg 的 schema 演化 和 time travel 功能,表结构可随业务变化灵活演进,无需复杂迁移。
- 对 Snowflake 与 Iceberg 格局的影响
- AWS 的深度集成意味着对 Apache Iceberg 作为开放表格式的强力背书。
- Snowflake 也在积极支持 Iceberg,S3 Tables 的出现促进 跨平台协作与兼容,为同时使用 AWS 和 Snowflake 的企业带来更大灵活性。
S3 Tables 对湖仓架构和数据分析的深远意义
- 加速湖仓一体化落地:S3 Tables 打通了数据湖存储与数据仓库引擎的界限,以 Iceberg 为桥梁,实现结构化数据在数据湖中高性能、安全管理和查询,推动企业真正从“数仓+数湖”走向“统一的湖仓架构”。
- 降低构建现代数据平台的门槛:用户无需自己搭建元数据服务或处理表维护事务,即可使用标准的 Iceberg 表模型,极大简化数据湖平台运维复杂度。
- 增强数据资产治理与生命周期管理能力:借助 S3 Tables 的原生表模型和权限管理,企业可以更轻松实现数据审计、访问控制、版本回溯等功能,提升数据可信度和合规性。
- 推动开源生态标准化与可移植性:随着 AWS 和 Snowflake 等巨头对 Iceberg 的支持,企业不再被绑定于某一个数据平台,可以在多个云服务和计算引擎之间灵活切换,提升架构弹性。
Amazon S3 Tables 的发布不仅是 AWS 数据湖服务的重要升级,更标志着 “数据湖即数据仓库” 的理念正在成为现实。它将 性能、兼容性、治理能力 三者统一于一体,为构建下一代统一的数据分析平台提供了强有力的基础设施支撑。
在 AWS re:Invent 2024 大会中,AWS 发布了 Amazon S3 Tables : 一项专为可扩展存储和管理结构化数据而设计的解决方案,基于 Apache Iceberg 开放表格式标准构建。在深入了解 Amazon S3 Tables 之前,我们需要先理解什么是“开放表格式”(Open Table Format, 简称 OTF)以及 Apache Iceberg。
什么是开放表格式(Open Table Format,OTF)?
在传统数据库中,读取数据通常涉及安装数据库软件、创建数据库、定义表结构(schema)和表或外部表,然后再从这些表中读取数据。而开放表格式则采取不同方式:
- 数据直接以文件形式(如 Apache Parquet、Apache ORC 或 Apache Avro)存储在数据湖中。
- 不需要将数据加载到数据库中,而是通过表格式协议将这些文件 组织并管理为“虚拟表”,就像它们存在于数据库中一样。
为了简化查询,可以使用例如 AWS Glue Catalog 这样的目录系统来注册这些虚拟表,进而让 Apache Spark、Trino、AWS Athena 等查询引擎 能够无缝访问和处理数据。
目前主流的开放表格式包括:
- Apache Iceberg
- Delta Lake
- Apache Hudi
这些格式因其 高性能、强可扩展性以及支持时间旅行查询和 schema 演化 等高级功能而受到广泛采用。
Apache Iceberg 简介
Apache Iceberg 是一款为数据湖中的大规模数据集设计的开源表格式,提供如下特性:
- 支持 ACID 事务,确保数据一致性;
- 支持 schema 演化,适应业务变化;
- 支持 时间旅行(Time Travel),便于历史数据回溯与审计。
Iceberg 提供了一种类似传统数据库的数据管理体验,让 AWS S3 这类云对象存储更具数据库特性,同时提升了数据分析任务的 性能、数据可靠性和灵活性。
S3 中的桶类型演进
在此次发布之前,Amazon S3 主要有两种类型的存储桶(bucket):
- 通用存储桶(General Purpose Bucket):最初的标准 S3 存储类型;
- 目录桶(Directory Bucket):在 2023 年 re:Invent 推出,属于 S3 Express,支持更快的性能和分层存储结构。
而在 2024 年,Amazon S3 Tables 引入了第三种桶类型:S3 Table Bucket —— 专门用于存储结构化表格数据,与 Apache Iceberg 深度集成,提供数据库级的数据管理体验。
S3 Tables
Amazon S3 Tables 是一种 在 S3 中托管的 Apache Iceberg 表,旨在让结构化数据(如每日交易记录、传感器读数或广告曝光等)存储和分析更加简单高效。这类数据以行和列的形式组织,类似于传统数据库中的表。将 Apache Iceberg 表直接集成到 Amazon S3 中的 全托管服务,标志着数据湖与数据仓库(湖仓)融合迈出了重要一步。
使用 S3 Tables 时,数据存储在一种名为 “表桶”(table bucket) 的特殊 S3 存储桶中。该桶以表为子资源进行组织,并原生支持 Apache Iceberg 格式,从而实现对表数据的高效管理与无缝查询。
用户可以使用标准 SQL 语句,结合 Amazon Athena、Amazon Redshift、Apache Spark 等主流工具,对这些表进行查询,数据分析变得直观且易于上手。S3 Tables 的设计目标是在控制存储成本的同时,显著提升查询性能。
S3 Table资源分类体系(New Taxonomy)
- Namespaces(命名空间):命名空间是对 S3 表的逻辑分组方式,用于更高效地组织和管理表。它们不是实际的物理资源(不像 S3 表或表桶那样存在),而是纯粹的组织工具,便于进行权限控制和数据管理的扩展。
- S3 表桶 & 表级策略(Table Bucket & Table Policies):现在,您可以为表桶(Bucket)和表(Table)分别编写资源级策略(Resource-Based Policies),同时也支持基于命名空间的策略管理。这增强了精细化的访问控制能力。
- 表的 ARN(Table ARN):每个 S3 表现在都拥有一个唯一的 ARN(Amazon Resource Name),用于唯一标识和编写资源访问策略,便于集成与权限管理。
- S3 Tables 接口终端节点(S3 Tables Endpoint):Amazon 为 S3 Tables 引入了全新的 接口终端节点(Interface Endpoint),这些终端节点是区域(Region)专属的,支持通过私有网络安全访问。
- S3 Tables 操作类 API(Operational APIs):Amazon 推出了全新的 API,用于执行表的基本操作,包括:istTable 、CreateTable、GetTableMetadataLocation、UpdateMetadataLocation、DeleteTable
- S3 Tables 管理类 API(Management APIs):为更好地进行表和桶的管理,AWS 还新增了以下 API:PutTablePolicy、PutTableBucketPolicy、PutTableMaintenanceConfig、PutTableBucketMaintenanceConfig
这些新能力标志着 S3 Tables 在数据治理、权限控制和操作自动化方面的全面进化。
S3 Tables 的核心优势与特性
Amazon S3 表兼具现代表存储系统的可扩展性、性能和可管理性。通过增强性能、确保表级安全性并优化存储成本,它们解决了大规模管理表格数据的核心挑战,使其成为一款强大的解决方案。
- 面向分析任务的性能优化
- 查询性能提升最高可达3倍,每秒事务数提升可达10倍(相较于用户自建 Iceberg 表+通用 S3 存储)。
- 自动进行 表维护、文件压缩和快照管理,持续优化查询效率、降低存储成本。
- 无缝对接 AWS 分析服务
- 支持 Apache Iceberg 标准,与 Amazon Athena、Redshift、EMR 等分析服务无缝对接。
- 用户可继续使用现有的工具链和技能,简化数据处理流程,提高开发效率。
- 简化的数据管理与治理
- 引入 “表桶(table buckets)” 的概念,为表数据专门设计的 S3 存储类型。
- 支持表级权限控制,便于数据治理。
- 原生支持 Iceberg 的 schema 演化 和 time travel 功能,表结构可随业务变化灵活演进,无需复杂迁移。
- 对 Snowflake 与 Iceberg 格局的影响
- AWS 的深度集成意味着对 Apache Iceberg 作为开放表格式的强力背书。
- Snowflake 也在积极支持 Iceberg,S3 Tables 的出现促进 跨平台协作与兼容,为同时使用 AWS 和 Snowflake 的企业带来更大灵活性。
S3 Tables 对湖仓架构和数据分析的深远意义
- 加速湖仓一体化落地:S3 Tables 打通了数据湖存储与数据仓库引擎的界限,以 Iceberg 为桥梁,实现结构化数据在数据湖中高性能、安全管理和查询,推动企业真正从“数仓+数湖”走向“统一的湖仓架构”。
- 降低构建现代数据平台的门槛:用户无需自己搭建元数据服务或处理表维护事务,即可使用标准的 Iceberg 表模型,极大简化数据湖平台运维复杂度。
- 增强数据资产治理与生命周期管理能力:借助 S3 Tables 的原生表模型和权限管理,企业可以更轻松实现数据审计、访问控制、版本回溯等功能,提升数据可信度和合规性。
- 推动开源生态标准化与可移植性:随着 AWS 和 Snowflake 等巨头对 Iceberg 的支持,企业不再被绑定于某一个数据平台,可以在多个云服务和计算引擎之间灵活切换,提升架构弹性。
Amazon S3 Tables 的发布不仅是 AWS 数据湖服务的重要升级,更标志着 “数据湖即数据仓库” 的理念正在成为现实。它将 性能、兼容性、治理能力 三者统一于一体,为构建下一代统一的数据分析平台提供了强有力的基础设施支撑。
相关推荐
- MySQL慢查询优化:从explain到索引,DBA手把手教你提升10倍性能
-
数据库性能是应用系统的生命线,而慢查询就像隐藏在系统中的定时炸弹。某电商平台曾因一条未优化的SQL导致订单系统响应时间从200ms飙升至8秒,最终引发用户投诉和订单流失。今天我们就来系统学习MySQL...
- 一文读懂SQL五大操作类别(DDL/DML/DQL/DCL/TCL)的基础语法
-
在SQL中,DDL、DML、DQL、DCL、TCL是按操作类型划分的五大核心语言类别,缩写及简介如下:DDL(DataDefinitionLanguage,数据定义语言):用于定义和管理数据库结构...
- 闲来无事,学学Mysql增、删,改,查
-
Mysql增、删,改,查1“增”——添加数据1.1为表中所有字段添加数据1.1.1INSERT语句中指定所有字段名语法:INSERTINTO表名(字段名1,字段名2,…)VALUES(值1...
- 数据库:MySQL 高性能优化规范建议
-
数据库命令规范所有数据库对象名称必须使用小写字母并用下划线分割所有数据库对象名称禁止使用MySQL保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来)数据库对象的命名要能做到见名识意,...
- 下载工具合集_下载工具手机版
-
迅雷,在国内的下载地位还是很难撼动的,所需要用到的地方还挺多。缺点就是不开会员,软件会限速。EagleGet,全能下载管理器,支持HTTP(S)FTPMMSRTSP协议,也可以使用浏览器扩展检测...
- mediamtx v1.15.2 更新详解:功能优化与问题修复
-
mediamtxv1.15.2已于2025年10月14日发布,本次更新在功能、性能优化以及问题修复方面带来了多项改进,同时也更新了部分依赖库并提升了安全性。以下为本次更新的详细内容:...
- 声学成像仪:泄露监测 “雷达” 方案开启精准防控
-
声学成像仪背景将声像图与阵列上配装的摄像实所拍的视频图像以透明的方式叠合在一起,就形成了可直观分析被测物产生状态。这种利用声学、电子学和信息处理等技术,变换成人眼可见的图像的技术可以帮助人们直观地认识...
- 最稳存储方案:两种方法将摄像头接入威联通Qu405,录像不再丢失
-
今年我家至少被4位邻居敲门,就是为了查监控!!!原因是小区内部监控很早就停止维护了,半夜老有小黄毛掰车门偷东西,还有闲的没事划车的,车主损失不小,我家很早就配备监控了,人来亮灯有一定威慑力,不过监控设...
- 离岗检测算法_离岗检查内容
-
一、研发背景如今社会许多岗位是严禁随意脱离岗位的,如塔台、保安室、监狱狱警监控室等等,因为此类行为可能会引起重大事故,而此类岗位监督管理又有一定困难,因此促生了智能视频识别系统的出现。二、产品概述及工...
- 消防安全通道占用检测报警系统_消防安全通道占用检测报警系统的作用
-
一、产品概述科缔欧消防安全通道占用检测报警系统,是创新行业智能监督管理方式、完善监管部门动态监控及预警预报体系的信息化手段,是实现平台远程监控由“人为监控”向“智能监控”转变的必要手段。产品致力于设...
- 外出住酒店、民宿如何使用手机检测隐藏的监控摄像头
-
最近,一个家庭在他们的民宿收到了一个大惊喜:客厅里有一个伪装成烟雾探测器的隐藏摄像头,监视着他们的一举一动。隐藏摄像头的存在如果您住在酒店或民宿,隐藏摄像头不应再是您的担忧。对于民宿,房东应报告所有可...
- 基于Tilera众核平台的流媒体流量发生系统的设计
-
曾帅,高宗彬,赵国锋(重庆邮电大学通信与信息工程学院,重庆400065)摘要:设计了一种基于Tilera众核平台高强度的流媒体流量发生系统架构,其主要包括:系统界面管理模块、服务承载模块和流媒体...
- 使用ffmpeg将rtsp流转流实现h5端播放
-
1.主要实现rtsp转tcp协议视频流播放ffmpeg下载安装(公认业界视频处理大佬)a、官网地址:www.ffmpeg.org/b、gitHub:github.com/FFmpeg/FFmp…c、推...
- 将摄像头视频流从Rtsp协议转为websocket协议
-
写在前面很多通过摄像头拿到的视频流格式都是Rtsp协议的,比如:海康威视摄像头。在现代的浏览器中,已经不支持直接播放Rtsp视频流,而且,海康威视提供的本身的webSdk3.3.0视频插件有很多...
- 华芸科技推出安全监控中心2.1 Beta测试版
-
全球独家支持hdmi在线实时监看摄像机画面,具单一、循环或同时监看四频道视频影像,可透过华芸专用红外线遥控器、airemote或是键盘鼠标进行操作,提供摄像机频道增购服务,满足用户弹性扩增频道需...
- 一周热门
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
