百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

深入解析全新 AWS S3 Tables:重塑数据湖仓架构

liuian 2025-05-16 14:47 63 浏览

在 AWS re:Invent 2024 大会中,AWS 发布了 Amazon S3 Tables : 一项专为可扩展存储和管理结构化数据而设计的解决方案,基于 Apache Iceberg 开放表格式标准构建。在深入了解 Amazon S3 Tables 之前,我们需要先理解什么是“开放表格式”(Open Table Format, 简称 OTF)以及 Apache Iceberg。

什么是开放表格式(Open Table Format,OTF)?

在传统数据库中,读取数据通常涉及安装数据库软件、创建数据库、定义表结构(schema)和表或外部表,然后再从这些表中读取数据。而开放表格式则采取不同方式:

  • 数据直接以文件形式(如 Apache Parquet、Apache ORC 或 Apache Avro)存储在数据湖中。
  • 不需要将数据加载到数据库中,而是通过表格式协议将这些文件 组织并管理为“虚拟表”,就像它们存在于数据库中一样。

为了简化查询,可以使用例如 AWS Glue Catalog 这样的目录系统来注册这些虚拟表,进而让 Apache Spark、Trino、AWS Athena 等查询引擎 能够无缝访问和处理数据。

目前主流的开放表格式包括:

  • Apache Iceberg
  • Delta Lake
  • Apache Hudi

这些格式因其 高性能、强可扩展性以及支持时间旅行查询和 schema 演化 等高级功能而受到广泛采用。

Apache Iceberg 简介

Apache Iceberg 是一款为数据湖中的大规模数据集设计的开源表格式,提供如下特性:

  • 支持 ACID 事务,确保数据一致性;
  • 支持 schema 演化,适应业务变化;
  • 支持 时间旅行(Time Travel),便于历史数据回溯与审计。

Iceberg 提供了一种类似传统数据库的数据管理体验,让 AWS S3 这类云对象存储更具数据库特性,同时提升了数据分析任务的 性能、数据可靠性和灵活性

S3 中的桶类型演进

在此次发布之前,Amazon S3 主要有两种类型的存储桶(bucket):

  1. 通用存储桶(General Purpose Bucket):最初的标准 S3 存储类型;
  2. 目录桶(Directory Bucket):在 2023 年 re:Invent 推出,属于 S3 Express,支持更快的性能和分层存储结构。

而在 2024 年,Amazon S3 Tables 引入了第三种桶类型:S3 Table Bucket —— 专门用于存储结构化表格数据,与 Apache Iceberg 深度集成,提供数据库级的数据管理体验。

S3 Tables

Amazon S3 Tables 是一种 在 S3 中托管的 Apache Iceberg 表,旨在让结构化数据(如每日交易记录、传感器读数或广告曝光等)存储和分析更加简单高效。这类数据以行和列的形式组织,类似于传统数据库中的表。将 Apache Iceberg 表直接集成到 Amazon S3 中的 全托管服务,标志着数据湖与数据仓库(湖仓)融合迈出了重要一步。

使用 S3 Tables 时,数据存储在一种名为 “表桶”(table bucket) 的特殊 S3 存储桶中。该桶以表为子资源进行组织,并原生支持 Apache Iceberg 格式,从而实现对表数据的高效管理与无缝查询。

用户可以使用标准 SQL 语句,结合 Amazon Athena、Amazon Redshift、Apache Spark 等主流工具,对这些表进行查询,数据分析变得直观且易于上手。S3 Tables 的设计目标是在控制存储成本的同时,显著提升查询性能

S3 Table资源分类体系(New Taxonomy)

  • Namespaces(命名空间):命名空间是对 S3 表的逻辑分组方式,用于更高效地组织和管理表。它们不是实际的物理资源(不像 S3 表或表桶那样存在),而是纯粹的组织工具,便于进行权限控制和数据管理的扩展。
  • S3 表桶 & 表级策略(Table Bucket & Table Policies):现在,您可以为表桶(Bucket)和表(Table)分别编写资源级策略(Resource-Based Policies),同时也支持基于命名空间的策略管理。这增强了精细化的访问控制能力。
  • 表的 ARN(Table ARN):每个 S3 表现在都拥有一个唯一的 ARN(Amazon Resource Name),用于唯一标识和编写资源访问策略,便于集成与权限管理。
  • S3 Tables 接口终端节点(S3 Tables Endpoint):Amazon 为 S3 Tables 引入了全新的 接口终端节点(Interface Endpoint),这些终端节点是区域(Region)专属的,支持通过私有网络安全访问。
  • S3 Tables 操作类 API(Operational APIs):Amazon 推出了全新的 API,用于执行表的基本操作,包括:istTable 、CreateTable、GetTableMetadataLocation、UpdateMetadataLocation、DeleteTable
  • S3 Tables 管理类 API(Management APIs):为更好地进行表和桶的管理,AWS 还新增了以下 API:PutTablePolicy、PutTableBucketPolicy、PutTableMaintenanceConfig、PutTableBucketMaintenanceConfig

这些新能力标志着 S3 Tables 在数据治理、权限控制和操作自动化方面的全面进化。

S3 Tables 的核心优势与特性

Amazon S3 表兼具现代表存储系统的可扩展性、性能和可管理性。通过增强性能、确保表级安全性并优化存储成本,它们解决了大规模管理表格数据的核心挑战,使其成为一款强大的解决方案。

  1. 面向分析任务的性能优化
  2. 查询性能提升最高可达3倍,每秒事务数提升可达10倍(相较于用户自建 Iceberg 表+通用 S3 存储)。
  3. 自动进行 表维护、文件压缩和快照管理,持续优化查询效率、降低存储成本。
  4. 无缝对接 AWS 分析服务
  5. 支持 Apache Iceberg 标准,与 Amazon Athena、Redshift、EMR 等分析服务无缝对接。
  6. 用户可继续使用现有的工具链和技能,简化数据处理流程,提高开发效率
  7. 简化的数据管理与治理
  8. 引入 “表桶(table buckets)” 的概念,为表数据专门设计的 S3 存储类型。
  9. 支持表级权限控制,便于数据治理。
  10. 原生支持 Iceberg 的 schema 演化 和 time travel 功能,表结构可随业务变化灵活演进,无需复杂迁移。
  11. 对 Snowflake 与 Iceberg 格局的影响
  12. AWS 的深度集成意味着对 Apache Iceberg 作为开放表格式的强力背书
  13. Snowflake 也在积极支持 Iceberg,S3 Tables 的出现促进 跨平台协作与兼容,为同时使用 AWS 和 Snowflake 的企业带来更大灵活性。

S3 Tables 对湖仓架构和数据分析的深远意义

  1. 加速湖仓一体化落地:S3 Tables 打通了数据湖存储与数据仓库引擎的界限,以 Iceberg 为桥梁,实现结构化数据在数据湖中高性能、安全管理和查询,推动企业真正从“数仓+数湖”走向“统一的湖仓架构”。
  2. 降低构建现代数据平台的门槛:用户无需自己搭建元数据服务或处理表维护事务,即可使用标准的 Iceberg 表模型,极大简化数据湖平台运维复杂度
  3. 增强数据资产治理与生命周期管理能力:借助 S3 Tables 的原生表模型和权限管理,企业可以更轻松实现数据审计、访问控制、版本回溯等功能,提升数据可信度和合规性。
  4. 推动开源生态标准化与可移植性:随着 AWS 和 Snowflake 等巨头对 Iceberg 的支持,企业不再被绑定于某一个数据平台,可以在多个云服务和计算引擎之间灵活切换,提升架构弹性。


Amazon S3 Tables 的发布不仅是 AWS 数据湖服务的重要升级,更标志着 “数据湖即数据仓库” 的理念正在成为现实。它将 性能、兼容性、治理能力 三者统一于一体,为构建下一代统一的数据分析平台提供了强有力的基础设施支撑。

在 AWS re:Invent 2024 大会中,AWS 发布了 Amazon S3 Tables : 一项专为可扩展存储和管理结构化数据而设计的解决方案,基于 Apache Iceberg 开放表格式标准构建。在深入了解 Amazon S3 Tables 之前,我们需要先理解什么是“开放表格式”(Open Table Format, 简称 OTF)以及 Apache Iceberg。

什么是开放表格式(Open Table Format,OTF)?

在传统数据库中,读取数据通常涉及安装数据库软件、创建数据库、定义表结构(schema)和表或外部表,然后再从这些表中读取数据。而开放表格式则采取不同方式:

  • 数据直接以文件形式(如 Apache Parquet、Apache ORC 或 Apache Avro)存储在数据湖中。
  • 不需要将数据加载到数据库中,而是通过表格式协议将这些文件 组织并管理为“虚拟表”,就像它们存在于数据库中一样。

为了简化查询,可以使用例如 AWS Glue Catalog 这样的目录系统来注册这些虚拟表,进而让 Apache Spark、Trino、AWS Athena 等查询引擎 能够无缝访问和处理数据。

目前主流的开放表格式包括:

  • Apache Iceberg
  • Delta Lake
  • Apache Hudi

这些格式因其 高性能、强可扩展性以及支持时间旅行查询和 schema 演化 等高级功能而受到广泛采用。

Apache Iceberg 简介

Apache Iceberg 是一款为数据湖中的大规模数据集设计的开源表格式,提供如下特性:

  • 支持 ACID 事务,确保数据一致性;
  • 支持 schema 演化,适应业务变化;
  • 支持 时间旅行(Time Travel),便于历史数据回溯与审计。

Iceberg 提供了一种类似传统数据库的数据管理体验,让 AWS S3 这类云对象存储更具数据库特性,同时提升了数据分析任务的 性能、数据可靠性和灵活性

S3 中的桶类型演进

在此次发布之前,Amazon S3 主要有两种类型的存储桶(bucket):

  1. 通用存储桶(General Purpose Bucket):最初的标准 S3 存储类型;
  2. 目录桶(Directory Bucket):在 2023 年 re:Invent 推出,属于 S3 Express,支持更快的性能和分层存储结构。

而在 2024 年,Amazon S3 Tables 引入了第三种桶类型:S3 Table Bucket —— 专门用于存储结构化表格数据,与 Apache Iceberg 深度集成,提供数据库级的数据管理体验。

S3 Tables

Amazon S3 Tables 是一种 在 S3 中托管的 Apache Iceberg 表,旨在让结构化数据(如每日交易记录、传感器读数或广告曝光等)存储和分析更加简单高效。这类数据以行和列的形式组织,类似于传统数据库中的表。将 Apache Iceberg 表直接集成到 Amazon S3 中的 全托管服务,标志着数据湖与数据仓库(湖仓)融合迈出了重要一步。

使用 S3 Tables 时,数据存储在一种名为 “表桶”(table bucket) 的特殊 S3 存储桶中。该桶以表为子资源进行组织,并原生支持 Apache Iceberg 格式,从而实现对表数据的高效管理与无缝查询。

用户可以使用标准 SQL 语句,结合 Amazon Athena、Amazon Redshift、Apache Spark 等主流工具,对这些表进行查询,数据分析变得直观且易于上手。S3 Tables 的设计目标是在控制存储成本的同时,显著提升查询性能

S3 Table资源分类体系(New Taxonomy)

  • Namespaces(命名空间):命名空间是对 S3 表的逻辑分组方式,用于更高效地组织和管理表。它们不是实际的物理资源(不像 S3 表或表桶那样存在),而是纯粹的组织工具,便于进行权限控制和数据管理的扩展。
  • S3 表桶 & 表级策略(Table Bucket & Table Policies):现在,您可以为表桶(Bucket)和表(Table)分别编写资源级策略(Resource-Based Policies),同时也支持基于命名空间的策略管理。这增强了精细化的访问控制能力。
  • 表的 ARN(Table ARN):每个 S3 表现在都拥有一个唯一的 ARN(Amazon Resource Name),用于唯一标识和编写资源访问策略,便于集成与权限管理。
  • S3 Tables 接口终端节点(S3 Tables Endpoint):Amazon 为 S3 Tables 引入了全新的 接口终端节点(Interface Endpoint),这些终端节点是区域(Region)专属的,支持通过私有网络安全访问。
  • S3 Tables 操作类 API(Operational APIs):Amazon 推出了全新的 API,用于执行表的基本操作,包括:istTable 、CreateTable、GetTableMetadataLocation、UpdateMetadataLocation、DeleteTable
  • S3 Tables 管理类 API(Management APIs):为更好地进行表和桶的管理,AWS 还新增了以下 API:PutTablePolicy、PutTableBucketPolicy、PutTableMaintenanceConfig、PutTableBucketMaintenanceConfig

这些新能力标志着 S3 Tables 在数据治理、权限控制和操作自动化方面的全面进化。

S3 Tables 的核心优势与特性

Amazon S3 表兼具现代表存储系统的可扩展性、性能和可管理性。通过增强性能、确保表级安全性并优化存储成本,它们解决了大规模管理表格数据的核心挑战,使其成为一款强大的解决方案。

  1. 面向分析任务的性能优化
  2. 查询性能提升最高可达3倍,每秒事务数提升可达10倍(相较于用户自建 Iceberg 表+通用 S3 存储)。
  3. 自动进行 表维护、文件压缩和快照管理,持续优化查询效率、降低存储成本。
  4. 无缝对接 AWS 分析服务
  5. 支持 Apache Iceberg 标准,与 Amazon Athena、Redshift、EMR 等分析服务无缝对接。
  6. 用户可继续使用现有的工具链和技能,简化数据处理流程,提高开发效率
  7. 简化的数据管理与治理
  8. 引入 “表桶(table buckets)” 的概念,为表数据专门设计的 S3 存储类型。
  9. 支持表级权限控制,便于数据治理。
  10. 原生支持 Iceberg 的 schema 演化 和 time travel 功能,表结构可随业务变化灵活演进,无需复杂迁移。
  11. 对 Snowflake 与 Iceberg 格局的影响
  12. AWS 的深度集成意味着对 Apache Iceberg 作为开放表格式的强力背书
  13. Snowflake 也在积极支持 Iceberg,S3 Tables 的出现促进 跨平台协作与兼容,为同时使用 AWS 和 Snowflake 的企业带来更大灵活性。

S3 Tables 对湖仓架构和数据分析的深远意义

  1. 加速湖仓一体化落地:S3 Tables 打通了数据湖存储与数据仓库引擎的界限,以 Iceberg 为桥梁,实现结构化数据在数据湖中高性能、安全管理和查询,推动企业真正从“数仓+数湖”走向“统一的湖仓架构”。
  2. 降低构建现代数据平台的门槛:用户无需自己搭建元数据服务或处理表维护事务,即可使用标准的 Iceberg 表模型,极大简化数据湖平台运维复杂度
  3. 增强数据资产治理与生命周期管理能力:借助 S3 Tables 的原生表模型和权限管理,企业可以更轻松实现数据审计、访问控制、版本回溯等功能,提升数据可信度和合规性。
  4. 推动开源生态标准化与可移植性:随着 AWS 和 Snowflake 等巨头对 Iceberg 的支持,企业不再被绑定于某一个数据平台,可以在多个云服务和计算引擎之间灵活切换,提升架构弹性。


Amazon S3 Tables 的发布不仅是 AWS 数据湖服务的重要升级,更标志着 “数据湖即数据仓库” 的理念正在成为现实。它将 性能、兼容性、治理能力 三者统一于一体,为构建下一代统一的数据分析平台提供了强有力的基础设施支撑。

相关推荐

木马病毒下载安装(木马病毒下载安装不实名认证)

现在1,你自己机器上下载个杀毒软件,安装之后不要删除安装包2,运行杀毒软件3,插入优盘,杀毒软件会自动扫描优盘发现病毒然后提示你4,选择处理/杀毒/清理这些字样5,把杀毒软件安装包复制到优盘6,右键优...

免费清理软件哪个最好最快(免费好用的清理垃圾软件)
  • 免费清理软件哪个最好最快(免费好用的清理垃圾软件)
  • 免费清理软件哪个最好最快(免费好用的清理垃圾软件)
  • 免费清理软件哪个最好最快(免费好用的清理垃圾软件)
  • 免费清理软件哪个最好最快(免费好用的清理垃圾软件)
手机cdr转jpg最简单的方法(手机cdr转换jpg)

cdr文件怎么转换成jpg,快来看下操作方法吧。方法/步骤1、打开电脑中的cdr软件,点击文件,打开,打开需要转换格式的cdr文件。2、点击菜单栏的文件,导出。3、打开导出对话框选择保存文件路径。4、...

xp永久激活工具(xp永久激活码)

如果你需要重置XP的激活器,你需要先打开“开始”菜单,然后选择“运行”。在运行对话框中,输入“regedit”,然后按回车键。这会打开注册表编辑器。在编辑器中,使用左侧面板来导航到“HKEY_LOCA...

cad2008激活序列号(激活cad的序列号)

1.首先运行“AutoCAD2008安装包”中的“Setup.exe”安装AutoCAD2008,安装过程需要十分钟左右;2.第一次运行AutoCAD2008时,请在注册界面输入序列号666-9...

自己可以重装电脑系统么(可以自己重装系统吗)

电脑自身也可以重装系统。1.电脑是一个可编程的设备,通过特定的步骤和操作,用户可以自行进行系统重装。2.重装系统的过程包括备份重要数据、获取系统安装介质、重新启动电脑进入安装界面、按照指引选择系统...

win11免费下载(win11正式版下载)
  • win11免费下载(win11正式版下载)
  • win11免费下载(win11正式版下载)
  • win11免费下载(win11正式版下载)
  • win11免费下载(win11正式版下载)
qq邮箱在哪里找账号(qq邮箱账号在qq里怎么找)
  • qq邮箱在哪里找账号(qq邮箱账号在qq里怎么找)
  • qq邮箱在哪里找账号(qq邮箱账号在qq里怎么找)
  • qq邮箱在哪里找账号(qq邮箱账号在qq里怎么找)
  • qq邮箱在哪里找账号(qq邮箱账号在qq里怎么找)
苹果处理器性能排行(苹果处理器性能排行榜平板)

1、截止至最新的iPhoneXS上搭载的A12,从iPhone4首次搭载A4处理器开始,目前已经有9代的苹果A系列处理器;2、A4是一颗45nm制程的ARMCortex-A8的单核心处理器,GP...

苹果手机怎么录屏(苹果手机怎么录屏在哪里打开)

iPhone手机的屏幕录制功能需要在设置里面进行添加,添加成功之后,就可以使用录屏功能了。点击控制中心进入iPhone手机的设置,来到设置之后,找到控制中心选项并点击。点击加号添加录屏功能来到控制中心...

电脑怎么打开系统还原(电脑怎么开启系统还原的功能)

右键此电脑,属性,系统保护,配置,勾选启用系统保护,确定,创建,输入还原点描述,点击创建,系统提示已成功创建还原点,点击关闭,当需要还原的时候,点击上面的系统还原,选择需要还原的节点,点击完成,即可开...

ghost系统下载xp(非ghostxp下载)

蒲公英系统网站能下载。下载后缀为gho的xp系统,使用体验非常棒效果非常好。以上信息根据美国华盛顿操作系统邮报最新消息显示。不能装钉钉的。在WindowsXP系统上是不能安装钉钉来上网课的。要使用钉...

电脑安全模式怎么用(电脑安全模式怎么按出来)

1.进入运行输入指令确定键盘上按下win+r组合键,打开运行,输入msconfig,点击确定。2.进引导系统选安全引导进入页面后,点击引导,选中系统,勾选安全引导,点击确定。3.重启进入安全模式弹出...

win10可选更新(win10可选更新和必要更新)

首先确保系统是激活状态。如果不是,可以用小马激活或KMS激活软件等工具激活。1.打开开始菜单,选择“设置”,选择“更新和安全”,设置自动检测安装更新,接受win10推送。电脑接受win10推送后...

讯飞语音输入法(讯飞语音输入法电脑版)

手机中讯飞语音输入法操作起来非常的简便。我们可以先打开讯飞语音。输入法在输入法键盘上的上端有一个麦克风的标识,我们只要点开麦克风的标识,就可以说话了,上面就会出现相应的文字了。文字可以自动帮我们识别修...