- Apache DataFusion查询引擎简介
-
简介DataFusion是一个查询引擎,其本身不具备存储数据的能力。正因为不依赖底层存储的格式,使其成为了一个灵活可扩展的查询引擎。它原生支持了查询CSV,Parquet,Avro,Json等存储格式...
- 大数据Hadoop之——Flink Table API 和 SQL(单机Kafka)
-
一、TableAPI和FlinkSQL是什么TableAPI和SQL集成在同一套API中。这套API的核心概念是Table,用作查询的输入和输出,这套API都是批处理和...
- 比较前 3 名Schema管理工具
-
关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。在本文中,读者将了解三种顶级schema管理工具,如AWSGlue、ConfluentSchemaRegistry和Memph...
- 大数据技术之Flume
-
第1章概述1.1Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2Flume的优点1.可以和...
- 车联网平台百万级消息吞吐架构设计|车联网系列专题 05
-
前言车辆在行驶过程中,会持续不断产生海量的消息,每一条通过车联网上报的数据都是非常珍贵的,其背后蕴藏着巨大的业务价值。因此我们构建的车辆TSP平台也通常需要拥有千万级主题和百万级消息吞吐能力。传统...
- 数据湖(七):Iceberg 概念及回顾什么是数据湖
-
#头条创作挑战赛#Iceberg概念及回顾什么是数据湖一、回顾什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构...
- Pinot 架构分析
-
Pinot的目标是在任意给定的数据集上提供分析。输入的数据可能存储于hadoop或kafka.在LinkedIn,大多数的跟踪数据被发布到kafka中并最终通过ETL处理转移至Hadoop.为了提供更...
- 【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
-
一、Hive小文件概述在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们以...
- Apache四个大型开源数据和数据湖系统
-
四个大型数据和数据湖的大型Apache系统,ApacheShardingsphere,Apache冰山,ApacheHudi和ApacheIotdB管理大数据所需的许多功能是其中一些是事务,数据...
- 面试系列 - 序列化和反序列化详解
-
Java序列化是一种将对象转换为字节流的过程,可以将对象的状态保存到磁盘文件或通过网络传输。反序列化则是将字节流重新转换为对象的过程。Java提供了一个强大的序列化框架,允许你在对象的持久化和网络...
- 一周热门
- 控制面板
- 网站分类
- 最新留言
-
