Apache四个大型开源数据和数据湖系统
liuian 2025-05-16 14:47 97 浏览
四个大型数据和数据湖的大型Apache系统,Apache Shardingsphere,Apache冰山,Apache Hudi和Apache IotdB
管理大数据所需的许多功能是其中一些是事务,数据突变,数据校正,流媒体支持,架构演进,因为酸性事务能力Apache提供了四种,用于满足和管理大数据。
Apache Sharding Sphere
它是一个众所周知的数据库中间件系统。它包含三个独立的模块,JDBC,Proxy和Sidecar(计划),但在部署时它们都混合在一起。Apache Shardingsphere提供标准化的数据分片,分布式事务和数据库治理功能,可以针对各种多样化应用方案,例如Java同义,异构语言和云本机。
今天的电子商务主要依赖于关系数据库和分布式环境,高效查询的激增和数据快速转移成为公司关系数据库的主要目标Apache Shardingsphere是伟大的关系数据库中间件生态系统,它为其开发人员提供了合理的计算和存储功能关系数据库。
Apache Iceberg
Apache Iceberg 最初由Netflix设计和开发。关键的想法是组织目录树中的所有文件,如果您需要在2018年5月创建的文件在Apache iceBerg中,您只需找出该文件并只读该文件,也没有必要阅读您可以阅读的其他文件忽略您对当前情况不太重要的其他数据。核心思想是跟踪时间表上表中的所有更改。
它是一种用于跟踪非常大的表的数据湖解决方案,它是一个轻量级数据湖解决方案,旨在解决列出大量分区和耗时和不一致的元数据和HDFS数据的问题。它包含三种类型的表格格式木质,Avro和Orc.in Apache iceberg表格格式与文件集合和文件格式的集合执行相同的东西,允许您在单个文件中跳过数据
它是一种用于在非常大型和比例表上跟踪和控制的新技术格式。它专为对象存储而设计(例如S3)。Iceberg 中更重要的概念是一个快照。快照表示一组完整的表数据文件。为每个更新操作生成新快照。
Apache Iceberg 有以下特征:
- ACID 事务能力,可以在不影响当前运行数据处理任务的情况下进行上游数据写入,这大大简化了ETL; Iceberg 提供更好的合并能力,可以大大减少数据存储延迟;
- 支持更多的分析引擎优异的内核抽象使其不绑定到特定的计算引擎。目前,冰山支持的计算发动机是Spark,Flink,Presto和Hive。
- Apache Iceberg为文件存储,组织,基于流的增量计算模型和基于批处理的全尺度计算模型提供统一和灵活的数据。批处理和流式传输任务可以使用类似的存储模型,并且不再隔离数据。iceberg支持隐藏的分区和分区演进,这促进了业务更新数据分区策略。支持三个存储格式木质,Avro和Orc。
- 增量读取处理能力iceBerg支持以流式方式读取增量数据,支持流和传输表源。
Apache Hudi
Apache Hudi是一个大数据增量处理框架,它试图解决摄取管道的效率问题和在大数据中需要插入,更新和增量消耗基元的ETL管道。它是针对分析和扫描优化的数据存储抽象,其可以在几分钟内将更改应用于HDF中的数据集,并支持多个增量处理系统来处理数据。通过自定义InputFormat与当前Hadoop生态系统(包括Apache Hive,Apache Parquet,Presto和Apache Spark)的集成使框架无缝为最终用户。
Hudi的设计目标是快速且逐步更新HDFS上的数据集。有两种更新数据的方法:读写编写并合并读取。写入模式上的副本是当我们更新数据时,我们需要通过索引获取更新数据中涉及的文件,然后读取数据并合并更新的数据。这种模式更易于更新数据,但是当涉及的数据更新时更新时,效率非常低;并合并读取是要将更新写入单独的新文件,然后我们可以选择与原始数据同步或异步地将更新的数据与原始数据合并(可以调用组合),因为更新的仅编写新文件,所以此模式将更新更快。
在Hudi系统的帮助下,很容易在MySQL,HBase和Cassandra中收集增量数据,并将其保存到Hudi。然后,presto,spark和hive可以快速阅读这些递增更新的数据。
Apache Iotdb
它是一种物联网时间序列工业数据库,Apache IOTDB是一款集成,存储,管理和Anallyze Thge IoT时间序列数据的软件系统。Apache IOTDB采用具有高性能和丰富功能的轻量级架构,并与Apache Hadoop,Spark和Flink等进行深度集成,可以满足工业中大规模数据存储,高速数据读数和复杂数据分析的需求事物互联网领域。
Apache IOTDB套件由多个组件组成,它们一起形成一系列功能,例如“数据收集 - 数据写入数据存储 - 数据查询 - 数据可视化数据分析”。其结构如下:
用户可以导入从设备上的传感器收集的时间序列数据,服务器负载和CPU内存等消息队列中的时间序列数据,时间序列数据,应用程序的时间序列数据或从其他数据库到本地或远程IOTDB的时间序列数据JDBC。在。用户还可以直接将上述数据写入本地(或在HDFS上)TSFile文件。TSFile文件可以写入HDF,以实现数据处理平台的数据处理平台等异常检测和机器学习等数据处理任务。对于写入HDFS或本地的TSFile文件,您可以使用TSFile-Hadoop或TSFile-Spark连接器来允许Hadoop或Spark处理数据。分析结果可以写回TSFile文件。IOTDB和TSFile还提供相应的客户端工具,以满足用户在SQL,脚本和图形格式中查看数据的需求。
(本文由闻数起舞翻译自José Francisco Caiceo的文章《Four great Apache systems for big data and data lake, Apache ShardingSphere, Apache Iceberg, Apache Hudi and Apache IoTDB》,转载请注明出处,原文链接:
https://medium.com/cloud-believers/four-great-apache-systems-for-big-data-and-data-lake-apache-shardingsphere-apache-iceberg-238485129944)
相关推荐
- 系统引导启动项怎么设置(系统引导按哪个键)
-
如果您想在计算机启动时添加系统启动引导选项,可以按照以下步骤进行操作:1.打开“运行”窗口,可以通过快捷键Win+R打开“运行”窗口。2.在“运行”窗口中输入“msconfig”命令,并点击“...
- win10录屏快捷键ctrl+alt+(win10录屏功能快捷键)
-
答,笔记本电脑录屏快捷键是ctrl+alt+s。绝大多数人录制屏幕时,第一个想到的就是电脑自带的录屏功能,比较的方便快捷。这种方法运用起来时非常简单的,只需在键盘上同时按下“ctrl+alt+s”键就...
- 壁纸下载(壁纸下载安装)
-
回答如下:要下载电视屏保相册,您需要先找到适用于您的电视的屏保应用程序。这些应用程序可能会根据您的电视品牌和型号而有所不同,您可以在电视的应用商店中搜索或查看电视制造商的网站以获取更多信息。一旦您找到...
- 木马病毒下载安装(木马病毒下载安装不实名认证)
-
现在1,你自己机器上下载个杀毒软件,安装之后不要删除安装包2,运行杀毒软件3,插入优盘,杀毒软件会自动扫描优盘发现病毒然后提示你4,选择处理/杀毒/清理这些字样5,把杀毒软件安装包复制到优盘6,右键优...
- 手机cdr转jpg最简单的方法(手机cdr转换jpg)
-
cdr文件怎么转换成jpg,快来看下操作方法吧。方法/步骤1、打开电脑中的cdr软件,点击文件,打开,打开需要转换格式的cdr文件。2、点击菜单栏的文件,导出。3、打开导出对话框选择保存文件路径。4、...
- xp永久激活工具(xp永久激活码)
-
如果你需要重置XP的激活器,你需要先打开“开始”菜单,然后选择“运行”。在运行对话框中,输入“regedit”,然后按回车键。这会打开注册表编辑器。在编辑器中,使用左侧面板来导航到“HKEY_LOCA...
- cad2008激活序列号(激活cad的序列号)
-
1.首先运行“AutoCAD2008安装包”中的“Setup.exe”安装AutoCAD2008,安装过程需要十分钟左右;2.第一次运行AutoCAD2008时,请在注册界面输入序列号666-9...
- 自己可以重装电脑系统么(可以自己重装系统吗)
-
电脑自身也可以重装系统。1.电脑是一个可编程的设备,通过特定的步骤和操作,用户可以自行进行系统重装。2.重装系统的过程包括备份重要数据、获取系统安装介质、重新启动电脑进入安装界面、按照指引选择系统...
- 苹果处理器性能排行(苹果处理器性能排行榜平板)
-
1、截止至最新的iPhoneXS上搭载的A12,从iPhone4首次搭载A4处理器开始,目前已经有9代的苹果A系列处理器;2、A4是一颗45nm制程的ARMCortex-A8的单核心处理器,GP...
- 苹果手机怎么录屏(苹果手机怎么录屏在哪里打开)
-
iPhone手机的屏幕录制功能需要在设置里面进行添加,添加成功之后,就可以使用录屏功能了。点击控制中心进入iPhone手机的设置,来到设置之后,找到控制中心选项并点击。点击加号添加录屏功能来到控制中心...
- 电脑怎么打开系统还原(电脑怎么开启系统还原的功能)
-
右键此电脑,属性,系统保护,配置,勾选启用系统保护,确定,创建,输入还原点描述,点击创建,系统提示已成功创建还原点,点击关闭,当需要还原的时候,点击上面的系统还原,选择需要还原的节点,点击完成,即可开...
- ghost系统下载xp(非ghostxp下载)
-
蒲公英系统网站能下载。下载后缀为gho的xp系统,使用体验非常棒效果非常好。以上信息根据美国华盛顿操作系统邮报最新消息显示。不能装钉钉的。在WindowsXP系统上是不能安装钉钉来上网课的。要使用钉...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
