「大数据」 hive入门
liuian 2025-05-16 14:48 54 浏览
前言
最近会介入数据中台项目,所以会推出一系列的跟大数据相关的组件博客与文档。
Hive这个大数据组件自从Hadoop诞生之日起,便作为Hadoop生态体系(HDFS、MR/YARN、HIVE、HBASE)中极其重要的一员而存在。
Hive是Hadoop生态体系中的分布式数据仓库,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据,拥有如下特点:
- 天然的分布式数据库,底层存储为HDFS(天然的分布式文件系统);
- 数据操作(查询、修改、条件删除)需要额外的计算引擎支持,如:MR、Tez、spark等;(注意这里没有新增,一般是通过数据导入)
- 虽然数据都是存储在HDFS,但是支持多种不同的数据存储格式,如:Text、SequenceFile、RCFile、avro、parquet、orc,carbondata等;
- 本身不支持索引功能,不支持时间复杂度非常低的数据结构;
- 所有操作(查询、修改、条件删除)基本上都是离线的,需要进行全表IO;
- 只是将数据与表之间建立一种简单的映射关系;
- 如果用SQL进行数据操作,将SQL转换为计算引擎的执行计划并执行。
Hive的使用场景:
hive 不适用于实时性要求很强的场景,它的查询速度很慢,总体来说是用时间换空间,作为一个大数据的组件,通过它转换文件或者大批量的数据之后进入到Hadoop后续的MapReduce计算引擎去处理数据,可以理解成大数据流程中的前置导入模块。
它还有个有点是离线,离线代表了数据安全,不用联网就能实现数据导入,包括查询、修改也是离线操作。而且它不仅支持数据库表的导入,还支持各种离线文件的数据导入,所以应用面还是很广的,例如日志文件的导入。
支持一次hive转换,多次读取。
Hive的优缺点
优点:
- 数据完全是存在HDFS之上,数据支持高可用;
- 因为hive的数据存储几乎只占用磁盘空间(对比HBASE、Elasticsearch等内存消耗大户),而磁盘又是最廉价的硬件资源,适合来存储海量的全量离线数据集(轻松支持PB、TB量级数据集);
- 支持丰富的数据访问接口,如:JDBC,hiveserver以及主流的计算引擎spark、flink、storm等;
- 支持丰富的SQL语句,Hive SQL 简称: HQL,可根据业务情况定制的UDF函数;
缺点:
- 数据处理延迟很高,因为每次数据处理都会启动计算引擎以及几乎全量的数据IO;
- 虽然也叫数据库,但是无法做到像RDBMS一样对事务的支持(虽然hive2.x开始号称也支持了,但是跟RDBMS的事务不是一个概念);
- 一旦写入,不支持修改(hive2.x之后,如果数据存储格式为ORC是支持修改的,但一般不建议)。
Hive的数据格式
功能 | parquet | orc |
开发语言 | Java | Java |
是否列式存储 | 是 | 是 |
复杂条件查询支持 | 支持 | 支持 |
数据压缩 | 支持多种数据压缩格式 | 支持多种数据压缩格式 |
ACID支持 | 不支持 | 支持 |
数据update | 不支持 | 支持 |
索引支持 | 支持粗粒度索引 | 支持粗粒度索引 |
计算引擎支持 | 主流计算引擎支持:spark,flink,mr,tez等 | 主流计算引擎支持:spark,flink,mr,tez等 |
总结
如果对数据的要求为:全量、离线、高可用、一次写入多次读取。那么hive一定是非常适合的选择,另外如果想加速你数据处理的效率,可以从以下几个方面来考虑:
- 尽可能使用分区,如果数据量特别大,建议使用多级分区;
- 因为业务原因而无法找到分区字段的,可以对数据进行分桶;
- 尽量使用带索引和数据压缩功能的数据格式来作为hive的底层存储;
- 如果集群资源允许(主要是内存资源),使用hive的LLAP(官方:Live long and process)
相关推荐
- 苹果处理器性能排行(苹果处理器性能排行榜平板)
-
1、截止至最新的iPhoneXS上搭载的A12,从iPhone4首次搭载A4处理器开始,目前已经有9代的苹果A系列处理器;2、A4是一颗45nm制程的ARMCortex-A8的单核心处理器,GP...
- 苹果手机怎么录屏(苹果手机怎么录屏在哪里打开)
-
iPhone手机的屏幕录制功能需要在设置里面进行添加,添加成功之后,就可以使用录屏功能了。点击控制中心进入iPhone手机的设置,来到设置之后,找到控制中心选项并点击。点击加号添加录屏功能来到控制中心...
- 电脑怎么打开系统还原(电脑怎么开启系统还原的功能)
-
右键此电脑,属性,系统保护,配置,勾选启用系统保护,确定,创建,输入还原点描述,点击创建,系统提示已成功创建还原点,点击关闭,当需要还原的时候,点击上面的系统还原,选择需要还原的节点,点击完成,即可开...
- ghost系统下载xp(非ghostxp下载)
-
蒲公英系统网站能下载。下载后缀为gho的xp系统,使用体验非常棒效果非常好。以上信息根据美国华盛顿操作系统邮报最新消息显示。不能装钉钉的。在WindowsXP系统上是不能安装钉钉来上网课的。要使用钉...
- 电脑安全模式怎么用(电脑安全模式怎么按出来)
-
1.进入运行输入指令确定键盘上按下win+r组合键,打开运行,输入msconfig,点击确定。2.进引导系统选安全引导进入页面后,点击引导,选中系统,勾选安全引导,点击确定。3.重启进入安全模式弹出...
- win10可选更新(win10可选更新和必要更新)
-
首先确保系统是激活状态。如果不是,可以用小马激活或KMS激活软件等工具激活。1.打开开始菜单,选择“设置”,选择“更新和安全”,设置自动检测安装更新,接受win10推送。电脑接受win10推送后...
- 讯飞语音输入法(讯飞语音输入法电脑版)
-
手机中讯飞语音输入法操作起来非常的简便。我们可以先打开讯飞语音。输入法在输入法键盘上的上端有一个麦克风的标识,我们只要点开麦克风的标识,就可以说话了,上面就会出现相应的文字了。文字可以自动帮我们识别修...
- 电脑品牌型号在哪里看(电脑选什么牌子的好)
-
查看自己电脑品牌型号和具体配置的具体方法:1.右键点击桌面上的“这台电脑”图标,弹出的菜单中选择“属性”。2.在此界面即可看到你的电脑的CPU品牌(AMD)、型号(A6-5200)、频率(2.0GHz...
- 网卡驱动装不上怎么回事(网卡驱动装不了怎么办)
-
可能原因如下1、这种情况是因为系统中没有集成电脑网卡所对应的驱动程序。2、这种情况可以利用鲁大师查询网卡的具体型号,然后去官网或者网络上下载对应的驱动重新安装就可以正常上网了。可能原因如下:1,估计是...
- 手机输入法怎么打繁体字(手机怎样输入繁体)
-
步骤如下:1.在手机设置页面找到输入法设置,如果能搜索,会帮助找到输入法设置页面。2.在系统的输入法设置页面,找到输入法自身的设置页面入口。3.在输入法自设难度设置页面,找到简繁切换的设置页面。4.勾...
- photoshop 下载(photoshop下载需要花钱吗)
-
怎样下载photoshop的步骤方法如下面所示:1.首先第一步的步骤是在我们的电脑桌面上找到电脑管家并紧接着点击它(如果没有电脑管家需要提前安装)。2.然后一步的方法是点击屏幕右下方的工具箱。3.最后...
- 联想官方网站驱动下载官网(联想官方网站驱动下载官网安装)
-
拯救者官网下驱动的方法:打开联想服务官网(support.lenovo.com.cn),页面滚动下拉找到“帮助与支持”板块,点击“驱动和软件下载”。下载联想拯救者的驱动很简单。简单联想官网提供详细的驱...
- win7一键重装(win7一键重装系统纯净版不需要激活哪个好)
-
1.制作一个u盘pe2.下载win7系统镜像到u盘里面3.u盘插入电脑4.启动电脑按F12或DE5.选择usb进入pe6.打开一键安装7.选择系统8.等待安装,都是自动安装无需手动9.安装系统完成后就...
- 硬盘低格工具软件(硬盘低格软件推荐)
-
万能低格工具llftool好万能低格工具llftool是一款强大易用的硬盘低级格式化软件,支持硬盘、移动硬盘、内存卡、u盘等等存储设备的低格功能,过程快速方便,性能安全稳定。另外,...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
