百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

深入解析全新 AWS S3 Tables:重塑数据湖仓架构

liuian 2025-05-16 14:47 69 浏览

在 AWS re:Invent 2024 大会中,AWS 发布了 Amazon S3 Tables : 一项专为可扩展存储和管理结构化数据而设计的解决方案,基于 Apache Iceberg 开放表格式标准构建。在深入了解 Amazon S3 Tables 之前,我们需要先理解什么是“开放表格式”(Open Table Format, 简称 OTF)以及 Apache Iceberg。

什么是开放表格式(Open Table Format,OTF)?

在传统数据库中,读取数据通常涉及安装数据库软件、创建数据库、定义表结构(schema)和表或外部表,然后再从这些表中读取数据。而开放表格式则采取不同方式:

  • 数据直接以文件形式(如 Apache Parquet、Apache ORC 或 Apache Avro)存储在数据湖中。
  • 不需要将数据加载到数据库中,而是通过表格式协议将这些文件 组织并管理为“虚拟表”,就像它们存在于数据库中一样。

为了简化查询,可以使用例如 AWS Glue Catalog 这样的目录系统来注册这些虚拟表,进而让 Apache Spark、Trino、AWS Athena 等查询引擎 能够无缝访问和处理数据。

目前主流的开放表格式包括:

  • Apache Iceberg
  • Delta Lake
  • Apache Hudi

这些格式因其 高性能、强可扩展性以及支持时间旅行查询和 schema 演化 等高级功能而受到广泛采用。

Apache Iceberg 简介

Apache Iceberg 是一款为数据湖中的大规模数据集设计的开源表格式,提供如下特性:

  • 支持 ACID 事务,确保数据一致性;
  • 支持 schema 演化,适应业务变化;
  • 支持 时间旅行(Time Travel),便于历史数据回溯与审计。

Iceberg 提供了一种类似传统数据库的数据管理体验,让 AWS S3 这类云对象存储更具数据库特性,同时提升了数据分析任务的 性能、数据可靠性和灵活性

S3 中的桶类型演进

在此次发布之前,Amazon S3 主要有两种类型的存储桶(bucket):

  1. 通用存储桶(General Purpose Bucket):最初的标准 S3 存储类型;
  2. 目录桶(Directory Bucket):在 2023 年 re:Invent 推出,属于 S3 Express,支持更快的性能和分层存储结构。

而在 2024 年,Amazon S3 Tables 引入了第三种桶类型:S3 Table Bucket —— 专门用于存储结构化表格数据,与 Apache Iceberg 深度集成,提供数据库级的数据管理体验。

S3 Tables

Amazon S3 Tables 是一种 在 S3 中托管的 Apache Iceberg 表,旨在让结构化数据(如每日交易记录、传感器读数或广告曝光等)存储和分析更加简单高效。这类数据以行和列的形式组织,类似于传统数据库中的表。将 Apache Iceberg 表直接集成到 Amazon S3 中的 全托管服务,标志着数据湖与数据仓库(湖仓)融合迈出了重要一步。

使用 S3 Tables 时,数据存储在一种名为 “表桶”(table bucket) 的特殊 S3 存储桶中。该桶以表为子资源进行组织,并原生支持 Apache Iceberg 格式,从而实现对表数据的高效管理与无缝查询。

用户可以使用标准 SQL 语句,结合 Amazon Athena、Amazon Redshift、Apache Spark 等主流工具,对这些表进行查询,数据分析变得直观且易于上手。S3 Tables 的设计目标是在控制存储成本的同时,显著提升查询性能

S3 Table资源分类体系(New Taxonomy)

  • Namespaces(命名空间):命名空间是对 S3 表的逻辑分组方式,用于更高效地组织和管理表。它们不是实际的物理资源(不像 S3 表或表桶那样存在),而是纯粹的组织工具,便于进行权限控制和数据管理的扩展。
  • S3 表桶 & 表级策略(Table Bucket & Table Policies):现在,您可以为表桶(Bucket)和表(Table)分别编写资源级策略(Resource-Based Policies),同时也支持基于命名空间的策略管理。这增强了精细化的访问控制能力。
  • 表的 ARN(Table ARN):每个 S3 表现在都拥有一个唯一的 ARN(Amazon Resource Name),用于唯一标识和编写资源访问策略,便于集成与权限管理。
  • S3 Tables 接口终端节点(S3 Tables Endpoint):Amazon 为 S3 Tables 引入了全新的 接口终端节点(Interface Endpoint),这些终端节点是区域(Region)专属的,支持通过私有网络安全访问。
  • S3 Tables 操作类 API(Operational APIs):Amazon 推出了全新的 API,用于执行表的基本操作,包括:istTable 、CreateTable、GetTableMetadataLocation、UpdateMetadataLocation、DeleteTable
  • S3 Tables 管理类 API(Management APIs):为更好地进行表和桶的管理,AWS 还新增了以下 API:PutTablePolicy、PutTableBucketPolicy、PutTableMaintenanceConfig、PutTableBucketMaintenanceConfig

这些新能力标志着 S3 Tables 在数据治理、权限控制和操作自动化方面的全面进化。

S3 Tables 的核心优势与特性

Amazon S3 表兼具现代表存储系统的可扩展性、性能和可管理性。通过增强性能、确保表级安全性并优化存储成本,它们解决了大规模管理表格数据的核心挑战,使其成为一款强大的解决方案。

  1. 面向分析任务的性能优化
  2. 查询性能提升最高可达3倍,每秒事务数提升可达10倍(相较于用户自建 Iceberg 表+通用 S3 存储)。
  3. 自动进行 表维护、文件压缩和快照管理,持续优化查询效率、降低存储成本。
  4. 无缝对接 AWS 分析服务
  5. 支持 Apache Iceberg 标准,与 Amazon Athena、Redshift、EMR 等分析服务无缝对接。
  6. 用户可继续使用现有的工具链和技能,简化数据处理流程,提高开发效率
  7. 简化的数据管理与治理
  8. 引入 “表桶(table buckets)” 的概念,为表数据专门设计的 S3 存储类型。
  9. 支持表级权限控制,便于数据治理。
  10. 原生支持 Iceberg 的 schema 演化 和 time travel 功能,表结构可随业务变化灵活演进,无需复杂迁移。
  11. 对 Snowflake 与 Iceberg 格局的影响
  12. AWS 的深度集成意味着对 Apache Iceberg 作为开放表格式的强力背书
  13. Snowflake 也在积极支持 Iceberg,S3 Tables 的出现促进 跨平台协作与兼容,为同时使用 AWS 和 Snowflake 的企业带来更大灵活性。

S3 Tables 对湖仓架构和数据分析的深远意义

  1. 加速湖仓一体化落地:S3 Tables 打通了数据湖存储与数据仓库引擎的界限,以 Iceberg 为桥梁,实现结构化数据在数据湖中高性能、安全管理和查询,推动企业真正从“数仓+数湖”走向“统一的湖仓架构”。
  2. 降低构建现代数据平台的门槛:用户无需自己搭建元数据服务或处理表维护事务,即可使用标准的 Iceberg 表模型,极大简化数据湖平台运维复杂度
  3. 增强数据资产治理与生命周期管理能力:借助 S3 Tables 的原生表模型和权限管理,企业可以更轻松实现数据审计、访问控制、版本回溯等功能,提升数据可信度和合规性。
  4. 推动开源生态标准化与可移植性:随着 AWS 和 Snowflake 等巨头对 Iceberg 的支持,企业不再被绑定于某一个数据平台,可以在多个云服务和计算引擎之间灵活切换,提升架构弹性。


Amazon S3 Tables 的发布不仅是 AWS 数据湖服务的重要升级,更标志着 “数据湖即数据仓库” 的理念正在成为现实。它将 性能、兼容性、治理能力 三者统一于一体,为构建下一代统一的数据分析平台提供了强有力的基础设施支撑。

在 AWS re:Invent 2024 大会中,AWS 发布了 Amazon S3 Tables : 一项专为可扩展存储和管理结构化数据而设计的解决方案,基于 Apache Iceberg 开放表格式标准构建。在深入了解 Amazon S3 Tables 之前,我们需要先理解什么是“开放表格式”(Open Table Format, 简称 OTF)以及 Apache Iceberg。

什么是开放表格式(Open Table Format,OTF)?

在传统数据库中,读取数据通常涉及安装数据库软件、创建数据库、定义表结构(schema)和表或外部表,然后再从这些表中读取数据。而开放表格式则采取不同方式:

  • 数据直接以文件形式(如 Apache Parquet、Apache ORC 或 Apache Avro)存储在数据湖中。
  • 不需要将数据加载到数据库中,而是通过表格式协议将这些文件 组织并管理为“虚拟表”,就像它们存在于数据库中一样。

为了简化查询,可以使用例如 AWS Glue Catalog 这样的目录系统来注册这些虚拟表,进而让 Apache Spark、Trino、AWS Athena 等查询引擎 能够无缝访问和处理数据。

目前主流的开放表格式包括:

  • Apache Iceberg
  • Delta Lake
  • Apache Hudi

这些格式因其 高性能、强可扩展性以及支持时间旅行查询和 schema 演化 等高级功能而受到广泛采用。

Apache Iceberg 简介

Apache Iceberg 是一款为数据湖中的大规模数据集设计的开源表格式,提供如下特性:

  • 支持 ACID 事务,确保数据一致性;
  • 支持 schema 演化,适应业务变化;
  • 支持 时间旅行(Time Travel),便于历史数据回溯与审计。

Iceberg 提供了一种类似传统数据库的数据管理体验,让 AWS S3 这类云对象存储更具数据库特性,同时提升了数据分析任务的 性能、数据可靠性和灵活性

S3 中的桶类型演进

在此次发布之前,Amazon S3 主要有两种类型的存储桶(bucket):

  1. 通用存储桶(General Purpose Bucket):最初的标准 S3 存储类型;
  2. 目录桶(Directory Bucket):在 2023 年 re:Invent 推出,属于 S3 Express,支持更快的性能和分层存储结构。

而在 2024 年,Amazon S3 Tables 引入了第三种桶类型:S3 Table Bucket —— 专门用于存储结构化表格数据,与 Apache Iceberg 深度集成,提供数据库级的数据管理体验。

S3 Tables

Amazon S3 Tables 是一种 在 S3 中托管的 Apache Iceberg 表,旨在让结构化数据(如每日交易记录、传感器读数或广告曝光等)存储和分析更加简单高效。这类数据以行和列的形式组织,类似于传统数据库中的表。将 Apache Iceberg 表直接集成到 Amazon S3 中的 全托管服务,标志着数据湖与数据仓库(湖仓)融合迈出了重要一步。

使用 S3 Tables 时,数据存储在一种名为 “表桶”(table bucket) 的特殊 S3 存储桶中。该桶以表为子资源进行组织,并原生支持 Apache Iceberg 格式,从而实现对表数据的高效管理与无缝查询。

用户可以使用标准 SQL 语句,结合 Amazon Athena、Amazon Redshift、Apache Spark 等主流工具,对这些表进行查询,数据分析变得直观且易于上手。S3 Tables 的设计目标是在控制存储成本的同时,显著提升查询性能

S3 Table资源分类体系(New Taxonomy)

  • Namespaces(命名空间):命名空间是对 S3 表的逻辑分组方式,用于更高效地组织和管理表。它们不是实际的物理资源(不像 S3 表或表桶那样存在),而是纯粹的组织工具,便于进行权限控制和数据管理的扩展。
  • S3 表桶 & 表级策略(Table Bucket & Table Policies):现在,您可以为表桶(Bucket)和表(Table)分别编写资源级策略(Resource-Based Policies),同时也支持基于命名空间的策略管理。这增强了精细化的访问控制能力。
  • 表的 ARN(Table ARN):每个 S3 表现在都拥有一个唯一的 ARN(Amazon Resource Name),用于唯一标识和编写资源访问策略,便于集成与权限管理。
  • S3 Tables 接口终端节点(S3 Tables Endpoint):Amazon 为 S3 Tables 引入了全新的 接口终端节点(Interface Endpoint),这些终端节点是区域(Region)专属的,支持通过私有网络安全访问。
  • S3 Tables 操作类 API(Operational APIs):Amazon 推出了全新的 API,用于执行表的基本操作,包括:istTable 、CreateTable、GetTableMetadataLocation、UpdateMetadataLocation、DeleteTable
  • S3 Tables 管理类 API(Management APIs):为更好地进行表和桶的管理,AWS 还新增了以下 API:PutTablePolicy、PutTableBucketPolicy、PutTableMaintenanceConfig、PutTableBucketMaintenanceConfig

这些新能力标志着 S3 Tables 在数据治理、权限控制和操作自动化方面的全面进化。

S3 Tables 的核心优势与特性

Amazon S3 表兼具现代表存储系统的可扩展性、性能和可管理性。通过增强性能、确保表级安全性并优化存储成本,它们解决了大规模管理表格数据的核心挑战,使其成为一款强大的解决方案。

  1. 面向分析任务的性能优化
  2. 查询性能提升最高可达3倍,每秒事务数提升可达10倍(相较于用户自建 Iceberg 表+通用 S3 存储)。
  3. 自动进行 表维护、文件压缩和快照管理,持续优化查询效率、降低存储成本。
  4. 无缝对接 AWS 分析服务
  5. 支持 Apache Iceberg 标准,与 Amazon Athena、Redshift、EMR 等分析服务无缝对接。
  6. 用户可继续使用现有的工具链和技能,简化数据处理流程,提高开发效率
  7. 简化的数据管理与治理
  8. 引入 “表桶(table buckets)” 的概念,为表数据专门设计的 S3 存储类型。
  9. 支持表级权限控制,便于数据治理。
  10. 原生支持 Iceberg 的 schema 演化 和 time travel 功能,表结构可随业务变化灵活演进,无需复杂迁移。
  11. 对 Snowflake 与 Iceberg 格局的影响
  12. AWS 的深度集成意味着对 Apache Iceberg 作为开放表格式的强力背书
  13. Snowflake 也在积极支持 Iceberg,S3 Tables 的出现促进 跨平台协作与兼容,为同时使用 AWS 和 Snowflake 的企业带来更大灵活性。

S3 Tables 对湖仓架构和数据分析的深远意义

  1. 加速湖仓一体化落地:S3 Tables 打通了数据湖存储与数据仓库引擎的界限,以 Iceberg 为桥梁,实现结构化数据在数据湖中高性能、安全管理和查询,推动企业真正从“数仓+数湖”走向“统一的湖仓架构”。
  2. 降低构建现代数据平台的门槛:用户无需自己搭建元数据服务或处理表维护事务,即可使用标准的 Iceberg 表模型,极大简化数据湖平台运维复杂度
  3. 增强数据资产治理与生命周期管理能力:借助 S3 Tables 的原生表模型和权限管理,企业可以更轻松实现数据审计、访问控制、版本回溯等功能,提升数据可信度和合规性。
  4. 推动开源生态标准化与可移植性:随着 AWS 和 Snowflake 等巨头对 Iceberg 的支持,企业不再被绑定于某一个数据平台,可以在多个云服务和计算引擎之间灵活切换,提升架构弹性。


Amazon S3 Tables 的发布不仅是 AWS 数据湖服务的重要升级,更标志着 “数据湖即数据仓库” 的理念正在成为现实。它将 性能、兼容性、治理能力 三者统一于一体,为构建下一代统一的数据分析平台提供了强有力的基础设施支撑。

相关推荐

驱动网卡(怎么从新驱动网卡)
驱动网卡(怎么从新驱动网卡)

网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...

2026-01-30 00:37 liuian

win10更新助手装系统(微软win10更新助手)

1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...

windows11专业版密钥最新(windows11专业版激活码永久)

 Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...

手机删过的软件恢复(手机删除过的软件怎么恢复)
手机删过的软件恢复(手机删除过的软件怎么恢复)

操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...

2026-01-29 23:55 liuian

一键ghost手动备份系统步骤(一键ghost 备份)

  步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。  步骤...

怎么创建局域网(怎么创建局域网打游戏)

  1、购买路由器一台。进入路由器把dhcp功能打开  2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。  3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...

精灵驱动器官方下载(精灵驱动手机版下载)

是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...

一键还原系统步骤(一键还原系统有哪些)

1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。  2、在弹出的“准备安装”窗口中,可...

电脑加速器哪个好(电脑加速器哪款好)

我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...

任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)

是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...

u盘怎么恢复文件(u盘文件恢复的方法)

开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...

系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)

1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...

剪贴板权限设置方法(剪贴板访问权限)
剪贴板权限设置方法(剪贴板访问权限)

1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...

2026-01-29 21:37 liuian

平板系统重装大师(平板重装win系统)

如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...

联想官网售后服务网点(联想官网售后服务热线)

联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...