阿里云云原生一体化数仓—湖仓一体新能力解读
liuian 2025-06-08 22:35 31 浏览
一、基于 MaxCompute 的湖仓一体架构更新
基于MaxCompute 云数据仓库的湖仓一体架构近期进行架构升级。了解 MaxCompute 的同学可能比较清楚,MaxCompute 有两层结构,需要先创建 Project ,在 Project 里面创建表、资源等。传统数据库,在数据库跟表之间有一层 Schema。当前从数据库迁移数据至 MaxCompute 时,有客户对 Schema 这层有诉求。本次架构升级,MaxCompute 升级为三层模型,Table --> Schema --> Project(此功能将在9月上线) 。
对于湖仓一体架构,MaxCompute 是作为仓的存在,使用外部 Schema 对接外部数据源,外部数据源这里称之为Foreign Server,其中包括了 Foreign Data Wrapper 涵盖每一个数据源的连接信息。最早支持的 hadoop 的 hive 数据源,映射 Hive metastore 读写 hdfs 数据。同时可以对接阿里云数据湖构建 Data Lake Formation 产品,DLF 主要的作用是通过扫描 OSS文件,做一个统一的元数据管理和权限管理。我们可以通过 Foreign Server 也就是外部数据源对接 DLF 的元数据,处理 OSS 文件结构。这样就可以对接云上 OSS 数据湖以及开源 Hadoop 生态 hdfs 数据湖。除此之外,也支持阿里云生态内的数仓和数据库,比如 Hologres 、关系型数据库和分析型数据库等。对于外部数据库,是通过 JDBC 协议连接,对于内部生态产品比如 Hologres ,可以做到存储上的直读,从性能是比 JDBC 更快一些。这是利用外部 Schema 对接外部数据源。
对于 OSS 上的一些非结构化数据,可以通过 Mount OSS 路径升级到 MaxCompute 做对象管理。可以通过MaxCompute 权限系统,对 Mount OSS 的对象做授权管理。可以使用 MaxCompute spark ML 和MaxCompute 的 AI 等引擎对 OSS 上文件结构的数据做处理。如果传统的 hadoop 数据平台,希望用到云上扩展算力,又不想全部迁移上云,可以在Hadoop 里通过 SDK 调用云上计算能力,同时把数据从云上导入云下,作为云下 Hadoop 集群算力的一个扩展。
总结来说,内部存储对接阿里云的Hologres 和 MaxCompute ,都是使用盘古文件系统,使用传统方式做对接,同时在 Porject 和 Table 之间加了一层 Schema,对接整个数据库生态;对于数据湖的存储,支持 HDFS 通过 Hive 的 MetaStore 映射到 MaxCompute 的外部 Schema ,支持 OSS 通过 DLF(Data Lake Formation)映射到Foreign Server 和 Foreign Data Wrapper 中,从而实现对外部 Internal Schema 的映射,也支持阿里云Hologres 以及外部的数据库生态。同时,整个 MaxCompute 的算力也可以被云下 Hadoop 集群引用,作为云下算力的扩充。下层的复杂结构,都可以通过统一的数据开发与治理平台 DataWorks 来管理。
总结三点:
- 对外部数据库生态联邦查询
支持 MaxCompute 外部 Schema 整库映射 MySQL 、Hologres DB/Schema,同时与 Hologres 能够存储直读,提升读写效率,用户不用做类似于从关系型数据库到 MaxCompute 的数据迁移工作,直接通过外部数据源的映射,在 MaxCompute 里可以实现本地数仓和外部数据源的联邦查询。
- 对非结构化数据的管理和处理
MaxCompute 通过 Mount OSS 路径,可以将存储在 OSS 上的结构化文件、非结构化图片、音视频等等,纳入到数仓权限体系做管理。OSS 还是对文件做粗粒度的权限管理, 把 OSS 提升为 MaxCompute 的一个对象,利用 MaxCompute 里的 ACL对每个用户是否可以访问 OSS 上的某些文件,做细粒度的权限管理。通过 MaxCompute 里的 Spark 引擎或者 机器学习 PAI 对结构化、半结构化以及非结构化文件格式的数据做处理。
- 对 Hadoop 资源池的云上扩展
当 IDC 集群或者云上Hadoop 集群需要扩容以及业务线快速的更新迭代,想要快速的试错。在不对本身集群资源做调整的情况下,直接将需要的算力放到 Serverless 云数仓服务,就可以实现对业务的快速迭代和试错,达到对现有资源的无缝扩展。
ForresterWaveCDW 技术评比中,主要从四个方面进行评测。
1、原生数据湖查询能力
2、对数据湖安全的集成能力
3、对数据湖引擎的集成能力
4、客户案例
基于这四个方面的评测,MaxCompute+DataWorks组合在数据湖集成方案中取得最高分。
二、典型使用场景介绍
IDC 线下 Hadoop 无迁移上云
客户不希望所有数据迁移上云,希望保有一部分数据自主可控,但有一部分算力需要在云上解决。之前做法是每天将数据做 ETL 导入导出,再利用云上的大规模分布式引擎 MaxCompute 做处理。每天需要做大量的 ETL 操作,消耗大量的时间和人力。通过线上线下打通,底层存储元数据,通过高速网络互联,实现云上直接消费云下数据,并且把数据返回到云下。
Serverless 数据湖 ETL / 交互式分析
云上的数据存储,已经变成了事实上的数据湖。湖上有离线数据、实时入湖数据、结构化、半结构化以及非结构化数据。对 OSS 数据的统一管理,外部元数据管理 DLF,通过扫描 OSS 上的文件,能 Schema 化的变成库表形式,不能 Schema 化的变成文件 location 的管理。通过DLF做元数据管理,上边对接数仓和引擎,也可以对接阿里云 EMR 的 Spark、Presto等。从而达到数据的共享、统一的元数据、以及多引擎的灵活架构。
IDC Hadoop 的云上弹性资源池
云上引擎 MaxCompute 可以作为本地数据平台的弹性资源池,整体数据的开发和治理都在本地 Hadoop ,依照 Hadoop 的调度将 MaxCompute 作为一个资源池。从线下 Hadoop 集群发起作业,读写云上 MaxCompute 的资源,利用 MaxCompute 的算力,来做云上云下的数据传输。
多联邦查询
通过MaxCompute做多联邦查询,通过在统一的开发界面,能够 Join MaxCompute 云数仓的库和表,以及其他外部映射到 MaxCompute 的库和表。
三、 Demo
以MaxCompute映射Hologres外部数据源为例,展示MaxCompute如何通过外部Schema去映射外部数据库数据源。
原文链接:
http://click.aliyun.com/m/1000350628/
本文为阿里云原创内容,未经允许不得转载。
相关推荐
-
- 驱动网卡(怎么从新驱动网卡)
-
网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...
-
2026-01-30 00:37 liuian
- win10更新助手装系统(微软win10更新助手)
-
1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...
- windows11专业版密钥最新(windows11专业版激活码永久)
-
Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...
-
- 手机删过的软件恢复(手机删除过的软件怎么恢复)
-
操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...
-
2026-01-29 23:55 liuian
- 一键ghost手动备份系统步骤(一键ghost 备份)
-
步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。 步骤...
- 怎么创建局域网(怎么创建局域网打游戏)
-
1、购买路由器一台。进入路由器把dhcp功能打开 2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。 3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...
- 精灵驱动器官方下载(精灵驱动手机版下载)
-
是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...
- 一键还原系统步骤(一键还原系统有哪些)
-
1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。 2、在弹出的“准备安装”窗口中,可...
- 电脑加速器哪个好(电脑加速器哪款好)
-
我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...
- 任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)
-
是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...
- u盘怎么恢复文件(u盘文件恢复的方法)
-
开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...
- 系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)
-
1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...
-
- 剪贴板权限设置方法(剪贴板访问权限)
-
1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...
-
2026-01-29 21:37 liuian
- 平板系统重装大师(平板重装win系统)
-
如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...
- 联想官网售后服务网点(联想官网售后服务热线)
-
联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
Trae IDE 如何与 GitHub 无缝对接?
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
5步搞定动态考勤表!标记节假日、调休日?Excel自动变色!
-
RK3588-HDMIRX(瑞芯微rk3588芯片手册)
-
用纯Python轻松构建Web UI:Remi 动态更新,实时刷新界面内容
-
tplink无线路由器桥接教程(tplink路由器如何进行无线桥接)
-
都说Feign是RPC,没有侵入性,为什么我的代码越来越像 C++
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
