avro数据格式
- 「大数据」 hive入门
-
前言最近会介入数据中台项目,所以会推出一系列的跟大数据相关的组件博客与文档。Hive这个大数据组件自从Hadoop诞生之日起,便作为Hadoop生态体系(HDFS、MR/YARN、HIVE、HBASE)中极其重要的一员而存在。Hive是Hadoop生态体系中的分布式数据仓库,它提供了丰富的SQL查询...
- 青铜时代的终结:对奖牌架构的反思
-
作者|AdamBellemare译者|王强策划|Tina要点运维和分析用例无法可靠地访问相关、完整和可信赖的数据。需要一种新的数据处理方法。虽然多跳架构已经存在了几十年,并且可以对接运维和分析用例,但它效率低下、速度慢、成本高且难以复用。左移方法将下游发生的相同数据处理过程左移(...
- 解析IBM SQL-on-Hadoop的优化思路
-
对于BigSQL的优化,您需要注意以下六个方面:1.平衡的物理设计在进行集群的物理设计需要考虑数据节点的配置要一致,避免某个数据节点性能短板而影响整体性能。而对于管理节点,它虽然不保存业务数据,但作为管理服务和BigSQL系统包空间的存储,也需要配置一定数量的磁盘。另外,CPU/内存/磁盘的配比要...
- 交易型数据湖 - Apache Iceberg、Apache Hudi和Delta Lake的比较
-
图片由作者提供简介构建数据湖最重要的决定之一是选择数据的存储格式,因为它可以大大影响系统的性能、可用性和兼容性。通过仔细考虑数据存储的格式,我们可以增强数据湖的功能和性能。有几种不同的选择,每一种都有其独特的特点和能力。在这篇博文中,我们将对三种流行的数据湖技术进行彻底比较:DeltaLake,...
- 深入解析全新 AWS S3 Tables:重塑数据湖仓架构
-
在AWSre:Invent2024大会中,AWS发布了AmazonS3Tables:一项专为可扩展存储和管理结构化数据而设计的解决方案,基于ApacheIceberg开放表格式标准构建。在深入了解AmazonS3Tables之前,我们需要先理解什么是“开放表格式”(...
- Apache DataFusion查询引擎简介
-
简介DataFusion是一个查询引擎,其本身不具备存储数据的能力。正因为不依赖底层存储的格式,使其成为了一个灵活可扩展的查询引擎。它原生支持了查询CSV,Parquet,Avro,Json等存储格式,也支持了本地,AWSS3,AzureBlobStorage,GoogleCloudSto...
- 大数据Hadoop之——Flink Table API 和 SQL(单机Kafka)
-
一、TableAPI和FlinkSQL是什么TableAPI和SQL集成在同一套API中。这套API的核心概念是Table,用作查询的输入和输出,这套API都是批处理和流处理统一的上层API,这意味着在无边界的实时数据流和有边界的历史记录数据流上,关系型API会...
- 比较前 3 名Schema管理工具
-
关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。在本文中,读者将了解三种顶级schema管理工具,如AWSGlue、ConfluentSchemaRegistry和Memphis.devSchemaverse。在深入研究不同的支持技术之前,让我们创建一个关于模式和消息代理...
- 大数据技术之Flume
-
第1章概述1.1Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2Flume的优点1.可以和任意存储进程集成。2.输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压...
- 车联网平台百万级消息吞吐架构设计|车联网系列专题 05
-
前言车辆在行驶过程中,会持续不断产生海量的消息,每一条通过车联网上报的数据都是非常珍贵的,其背后蕴藏着巨大的业务价值。因此我们构建的车辆TSP平台也通常需要拥有千万级主题和百万级消息吞吐能力。传统的互联网系统很难支撑百万量级的消息吞吐。在本文中,我们将主要介绍如何针对百万级消息吞吐这一需求进行新...