当前位置：网站首页 > IT知识 > 正文

Mysql和Hive之间通过Sqoop进行数据同步

liuian 2025-08-03 06:03 57 浏览

文章回顾

理论

大数据框架原理简介

大数据发展历程及技术选型

实践

搭建大数据运行环境之一

搭建大数据运行环境之二

本地MAC环境配置

CPU数和内存大小

查看CPU数

sysctl machdep.cpu

# 核数为4
machdep.cpu.core_count: 4    
# cpu数量为8个，使用了超线程技术：四核八线程
machdep.cpu.thread_count: 8

内存大小

top -l 1 | head -n 10 | grep PhysMem

PhysMem: 16G used (10G wired), 67M unused.

在本地开了3个虚拟机centos服务器

虚拟机服务器配置

服务器1 192.168.84.128 4核4G
服务器2 192.168.84.131 1核2G
服务器3 192.168.84.132 1核2G

因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来

虚拟机软件给一个虚拟机分配核数和内存的方式

通过Sqoop查看Mysql数据库

/usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456

在Hive中创建测试表

创建test表

CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;

创建test_out表

CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

hive删除表

使用truncate仅可删除内部表数据，不可删除表结构

truncate table 表名
（truncate可删除所有的行，但是不能删除外部表）

使用shell命令删除外部表

hdfs -dfs -rm -r 外部表路径

使用 drop 可删除整个表

drop table 表名

查看hive表

查询hive所有表

hive -e "show databases ;" > databases.txt

cat databases.txt
default

指定default数据库

./hive -d default

在Mysql中创建测试表

创建test

DROP TABLE IF EXISTS `test`;
CREATE TABLE `test` (
  `id` int(10) DEFAULT NULL,
  `uid` int(10) DEFAULT NULL,
  `title` varchar(100) DEFAULT NULL,
  `name` varchar(100) DEFAULT NULL,
  `status` int(10) DEFAULT NULL,
  `time` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

插入3条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');

创建test_out

DROP TABLE IF EXISTS `test_out`;
CREATE TABLE `test_out` (
  `name` varchar(100) DEFAULT NULL,
  `count` int(10) DEFAULT NULL,
  `time` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Mysql导入Hive

/usr/local/sqoop/bin/sqoop import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database default \
--hive-table test \
--direct

虽然有报错 

ERROR bonecp.BoneCP: Unable to start/stop JMX
java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")

但不影响导入结果

查看hive表

说明从Mysql导入hive成功

增量数据定时导入

mysql test表增加一条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');

删除指定job

/usr/local/sqoop/bin/sqoop job --delete testJob

添加一个增量更新的job

/usr/local/sqoop/bin/sqoop job --create testJob -- \
import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--check-column time \
--incremental lastmodified \
--last-value '2018-08-09 15:30:29' \
--merge-key id \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--num-mappers 1 \
--target-dir /user/hive/warehouse/test

执行job

/usr/local/sqoop/bin/sqoop job --exec testJob

查看数据已被更新

查看job

/usr/local/sqoop/bin/sqoop job --show testJob

通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务

Hive导入Hive


cd /usr/local/hive/bin

hive

# 统计后将结果数据加入另一个表
INSERT INTO TABLE 
test_out(name,count,time) 
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

# 或者

INSERT OVERWRITE 
TABLE test_out
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

查看统计结果

统计成功

Hive导入Mysql


# hive的default库中的test_out表数据导出到mysql的test库test_out表

/usr/local/sqoop/bin/sqoop export \
--connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
--username root \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table test_out \
--hcatalog-database default \
--hcatalog-table test_out \
-m 1;

导出成功

可能遇到的问题及注意点

hive访问mysql数据库权限问题

服务器1上hive访问mysql如果报错

Access denied for user 'root'@'192.168.84.128' (using password: YES)

mysql需要授权访问者

GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;

flush privileges;

在namenode上执行

报错：

RemoteException(org.apache.hadoop.ipc.StandbyException):
Operation category READ is not supported in state standby

原因：

服务器1是namenode节点 active 状态
服务器2是secondNamenode节点是 standby状态

执行命令要在active的namenode才可以

只有namenode才会有webui 50070端口

服务器1（192.168.84.128）上安装namenode 有50070端口
服务器2（192.168.84.131）上安装secondNamenode 有50070端口
服务器3（192.168.84.132）上没有安装namenode 没有

后记

接下来研究的方向：

1、hive运行原理
2、弄一笔数据走一下搭建好的大数据运行环境
3、10亿数据如何分库分表存储Mysql
4、10亿数据同步到hive
5、flink数据如何求交

mysql 刷新权限

上一篇：Xtrabackup备份恢复数据库
下一篇：技术老兵十年专攻MySQL:编写了763页核心总结，90%MySQL问题全解

Mysql和Hive之间通过Sqoop进行数据同步

文章回顾

理论

实践

本地MAC环境配置

CPU数和内存大小

虚拟机服务器配置

通过Sqoop查看Mysql数据库

在Hive中创建测试表

创建test表

创建test_out表

hive删除表

查看hive表

在Mysql中创建测试表

Mysql导入Hive

增量数据定时导入

Hive导入Hive

Hive导入Mysql

可能遇到的问题及注意点

后记

相关推荐

飞牛OS入门安装遇到问题，如何解决?

Boost高性能并发无锁队列指南:boost::lockfree::queue

大模型手册: 保姆级用CherryStudio知识库

用什么工具在Win中查看8G大的log文件?

如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM

Trae IDE 如何与 GitHub 无缝对接?

如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法

Win11和Win10专业版永久激活密钥详细步骤?

5步搞定动态考勤表!标记节假日、调休日?Excel自动变色!

Vue独立组件——11个最佳Vue.js日期选择器组件