Mysql和Hive之间通过Sqoop进行数据同步
liuian 2025-08-03 06:03 47 浏览
文章回顾
理论
大数据框架原理简介
大数据发展历程及技术选型
实践
搭建大数据运行环境之一
搭建大数据运行环境之二
本地MAC环境配置
CPU数和内存大小
sysctl machdep.cpu
# 核数为4
machdep.cpu.core_count: 4
# cpu数量为8个,使用了超线程技术:四核八线程
machdep.cpu.thread_count: 8
top -l 1 | head -n 10 | grep PhysMem
PhysMem: 16G used (10G wired), 67M unused.
在本地开了3个虚拟机centos服务器
虚拟机服务器配置
服务器1 192.168.84.128 4核4G
服务器2 192.168.84.131 1核2G
服务器3 192.168.84.132 1核2G
因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来
虚拟机软件给一个虚拟机分配核数和内存的方式
通过Sqoop查看Mysql数据库
/usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456
在Hive中创建测试表
创建test表
CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;
创建test_out表
CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
hive删除表
truncate table 表名
(truncate可删除所有的行,但是不能删除外部表)
hdfs -dfs -rm -r 外部表路径
drop table 表名
查看hive表
hive -e "show databases ;" > databases.txt
cat databases.txt
default
./hive -d default
在Mysql中创建测试表
DROP TABLE IF EXISTS `test`;
CREATE TABLE `test` (
`id` int(10) DEFAULT NULL,
`uid` int(10) DEFAULT NULL,
`title` varchar(100) DEFAULT NULL,
`name` varchar(100) DEFAULT NULL,
`status` int(10) DEFAULT NULL,
`time` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
插入3条测试数据
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');
DROP TABLE IF EXISTS `test_out`;
CREATE TABLE `test_out` (
`name` varchar(100) DEFAULT NULL,
`count` int(10) DEFAULT NULL,
`time` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
Mysql导入Hive
/usr/local/sqoop/bin/sqoop import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database default \
--hive-table test \
--direct
虽然有报错
ERROR bonecp.BoneCP: Unable to start/stop JMX
java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")
但不影响导入结果
说明从Mysql导入hive成功
增量数据定时导入
mysql test表增加一条测试数据
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');
/usr/local/sqoop/bin/sqoop job --delete testJob
/usr/local/sqoop/bin/sqoop job --create testJob -- \
import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--check-column time \
--incremental lastmodified \
--last-value '2018-08-09 15:30:29' \
--merge-key id \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--num-mappers 1 \
--target-dir /user/hive/warehouse/test
/usr/local/sqoop/bin/sqoop job --exec testJob
/usr/local/sqoop/bin/sqoop job --show testJob
通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务
Hive导入Hive
cd /usr/local/hive/bin
hive
# 统计后将结果数据加入另一个表
INSERT INTO TABLE
test_out(name,count,time)
SELECT name,count(1),to_date(time)
FROM test
GROUP BY name,to_date(time);
# 或者
INSERT OVERWRITE
TABLE test_out
SELECT name,count(1),to_date(time)
FROM test
GROUP BY name,to_date(time);
查看统计结果
统计成功
Hive导入Mysql
# hive的default库中的test_out表数据导出到mysql的test库test_out表
/usr/local/sqoop/bin/sqoop export \
--connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
--username root \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table test_out \
--hcatalog-database default \
--hcatalog-table test_out \
-m 1;
导出成功
可能遇到的问题及注意点
服务器1上hive访问mysql如果报错
Access denied for user 'root'@'192.168.84.128' (using password: YES)
mysql需要授权访问者
GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;
flush privileges;
报错:
RemoteException(org.apache.hadoop.ipc.StandbyException):
Operation category READ is not supported in state standby
原因:
服务器1是namenode节点 active 状态
服务器2是secondNamenode节点是 standby状态
执行命令要在active的namenode才可以
服务器1(192.168.84.128)上安装namenode 有50070端口
服务器2(192.168.84.131)上安装secondNamenode 有50070端口
服务器3(192.168.84.132)上没有安装namenode 没有
后记
接下来研究的方向:
1、hive运行原理
2、弄一笔数据走一下搭建好的大数据运行环境
3、10亿数据如何分库分表存储Mysql
4、10亿数据同步到hive
5、flink数据如何求交
相关推荐
- tplink说明书图片(tp-link路由器说明书步骤图)
-
第一步连接路由器WIFI在手机获取IP地址里找到路由器网关地址,第二步在浏览器地址栏输入路由器网关地址,之后会跳转到路由器管理员登录界面,输入账号密码就可以进入路由后台管理路由,如果提示路由器密码错误...
- 如何不安装flash玩4399(现在4399不提供flash如何玩游戏)
-
没有flash是玩不了的,需要开启flash才可以。1、首先打开浏览器,进入4399的游戏页面。2、进入游戏页面后,点击【已被屏蔽】文字。3、然后右上角会出现窗口,点击【管理】按钮。4、进入管理页面后...
- chrome download apk(chromedownloadapk in english)
-
手机下载安装的第三方应用出现问题,无法正常使用,建议按照以下方法操作:1.关闭重新启动该应用。2.建议将此软件卸载重新安装尝试。3.更换其他版本尝试。4.更新下手机系统版本后安装尝试5.备份手机数据(...
-
- qq空间官网手机登录网页版(qq空间官网登陆入口)
-
z.qq.com可以通过以下方式登录手机QQ空间:1、使用手机登录手机腾讯网3g.qq.com,点击“空间”,根据提示QQ号码和QQ密码就可以登录;2、通过手机直接输入手机QQ空间网址z.qq.com,根据提示操作即可登录;3、下载手机Q...
-
2025-12-22 13:55 liuian
- windows11我的电脑在哪里打开
-
1/6通过“开始”进入“设置”-“时间和语言”。2/6在“时间和语言”界面选择“区域”3/6这里我们将区域更改位“新加披”,退出。4/6打开微软自带的市场,搜索“你的手机”获取并下载。5/6安装完成后...
- win10怎么取消开机自启动(win10如何关闭开机自动启动)
-
要关闭Windows10的开机自动启动程序,你可以按下Win+R键,输入"msconfig"并按回车键打开系统配置工具。在"启动"选项卡中,你可以看到所有开机自动...
- 手机cpu排名2025(手机cpu排名榜)
-
一、2022手机CPU性能综合排名前八名手机CPU:1、型号:苹果A16---综合分数:暂无2、型号:骁龙8gen1---综合分数:42333、联发科天玑9000---综合分数:38724、...
- 论坛系统(论坛系统数据流图)
-
BBS是电子布告栏系统的简称,一种网站系统,也是目前流行网络论坛的前身。它允许用户使用终端程序通过调制解调器拨接或者因特网来进行连接,BBS站台提供布告栏、分类讨论区、新闻阅读、软件下载与上传、游戏、...
- hp1020plus打印机无法打印(惠普1020plus打印机突然不能打印了)
-
删除惠普打印机驱动和软件:1.如果你的打印机已通过USB连接到电脑,断开USB连接;2.打开控制面板—程序和功能(卸载或更改应用程序);3.在软件列表中找到惠普打印机,将其卸载;4.重启电脑...
- wifi密码破解器电脑版(wifi密码破解工具电脑版)
-
肯定不是万能钥匙这种“破解”wifi的东西。不是一两次见到把万能钥匙当做破解wifi用的人了,但实际上那玩意就是个分享wifi的软件。你连上一个wifi,密码就会被分享到云端(可以不分享),别...
- 手机临时文件夹在哪个位置(手机临时文件夹在哪个位置找)
-
1.手机文件临时文件是指在手机使用过程中产生的临时文件。2.手机应用程序在运行时需要产生一些临时文件,如缓存文件、日志文件、临时下载文件等,这些文件可以提高应用程序的运行效率和用户体验。但是,这些...
- 安卓10系统下载(安卓10 下载)
-
方法及步骤: 其实使用安卓车机下载歌曲的方法十分的简单,具体操作步骤和安卓手机一模一样。 首先我们需要在车机的应用商店上,下载一个音乐播放器,例如网易云音乐或者QQ音乐等。 下载完成后点击进入...
- 华硕人工客服24小时吗(华硕售后人工客服)
-
华硕服务中心广东省惠州市惠东县城平深路(创富斜对面)惠东同心电脑城1L11(1.3km)笔记本电脑,平板电脑华硕服务中心广东省惠州市惠东县平山镇同心电脑城1F26(1.3km)笔记本电脑,平...
- 电脑音量小喇叭不见了(电脑声音喇叭图标不见了怎么办)
-
如果您电脑上的小喇叭(扬声器)不见了,可以尝试以下方法找回:1.检查设备管理器:在Windows下,右键点击“我的电脑”(或此电脑)->点击“属性”->点击“设备管理器”,查看“声音、视...
- 腾达路由器手机设置教程(腾达路由器手机设置教程视频)
-
用手机设置腾达路由器的方法如下:1在手机上打开浏览器,输入路由器背面的管理IP和用户及对应的密码2一般第一次打开,默认会跳出设置向导,准备好宽带用户名和密码,3按向导提示输入相应内容4在无线设置的安全...
- 一周热门
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
