百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Mysql和Hive之间通过Sqoop进行数据同步

liuian 2025-08-03 06:03 48 浏览


文章回顾

理论

大数据框架原理简介

大数据发展历程及技术选型

实践

搭建大数据运行环境之一

搭建大数据运行环境之二

本地MAC环境配置

CPU数和内存大小

  • 查看CPU数
  • sysctl machdep.cpu
    
    # 核数为4
    machdep.cpu.core_count: 4    
    # cpu数量为8个,使用了超线程技术:四核八线程
    machdep.cpu.thread_count: 8  
    
  • 内存大小
  • top -l 1 | head -n 10 | grep PhysMem
    
    PhysMem: 16G used (10G wired), 67M unused.
    

    在本地开了3个虚拟机centos服务器

    虚拟机服务器配置

    服务器1 192.168.84.128 4核4G
    服务器2 192.168.84.131 1核2G
    服务器3 192.168.84.132 1核2G
    
    因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来
    
    

    虚拟机软件给一个虚拟机分配核数和内存的方式

    通过Sqoop查看Mysql数据库

    /usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456
    

    在Hive中创建测试表

    创建test表

    CREATE TABLE IF NOT EXISTS test (
    id int
    ,uid int
    ,title string
    ,name string
    ,status int
    ,time timestamp)
    COMMENT '简介'
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY "\001"
    LINES TERMINATED BY "\n"
    STORED AS TEXTFILE;
    

    创建test_out表

    CREATE TABLE IF NOT EXISTS test_out (
    name string
    , count int
    ,time date)
    COMMENT '简介'
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\001'
    LINES TERMINATED BY '\n'
    STORED AS TEXTFILE;
    

    hive删除表

  • 使用truncate仅可删除内部表数据,不可删除表结构
  • truncate table 表名
    (truncate可删除所有的行,但是不能删除外部表)
    
  • 使用shell命令删除外部表
  • hdfs -dfs -rm -r 外部表路径
    
  • 使用 drop 可删除整个表
  • drop table 表名
    

    查看hive表

  • 查询hive所有表
  • hive -e "show databases ;" > databases.txt
    
    cat databases.txt
    default
    
  • 指定default数据库
  • ./hive -d default
    

    在Mysql中创建测试表

  • 创建test
  • DROP TABLE IF EXISTS `test`;
    CREATE TABLE `test` (
      `id` int(10) DEFAULT NULL,
      `uid` int(10) DEFAULT NULL,
      `title` varchar(100) DEFAULT NULL,
      `name` varchar(100) DEFAULT NULL,
      `status` int(10) DEFAULT NULL,
      `time` timestamp NULL DEFAULT NULL
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
    

    插入3条测试数据

    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');
    
    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');
    
    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');
    
  • 创建test_out
  • DROP TABLE IF EXISTS `test_out`;
    CREATE TABLE `test_out` (
      `name` varchar(100) DEFAULT NULL,
      `count` int(10) DEFAULT NULL,
      `time` date DEFAULT NULL
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
    

    Mysql导入Hive

    /usr/local/sqoop/bin/sqoop import \
    --driver com.mysql.jdbc.Driver \
    --connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
    --username root \
    --password 123456 \
    --table test \
    --fields-terminated-by '\001' \
    --lines-terminated-by '\n' \
    --delete-target-dir \
    --num-mappers 1 \
    --hive-import \
    --hive-database default \
    --hive-table test \
    --direct
    
    虽然有报错 
    
    ERROR bonecp.BoneCP: Unable to start/stop JMX
    java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")
    
    但不影响导入结果
    
  • 查看hive表
  • 说明从Mysql导入hive成功
    

    增量数据定时导入

    mysql test表增加一条测试数据

    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');
    
  • 删除指定job
  • /usr/local/sqoop/bin/sqoop job --delete testJob
    
  • 添加一个增量更新的job
  • /usr/local/sqoop/bin/sqoop job --create testJob -- \
    import \
    --driver com.mysql.jdbc.Driver \
    --connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
    --username root \
    --password 123456 \
    --table test \
    --check-column time \
    --incremental lastmodified \
    --last-value '2018-08-09 15:30:29' \
    --merge-key id \
    --fields-terminated-by '\001' \
    --lines-terminated-by '\n' \
    --num-mappers 1 \
    --target-dir /user/hive/warehouse/test
    
  • 执行job
  • /usr/local/sqoop/bin/sqoop job --exec testJob
    
  • 查看数据已被更新
  • 查看job
  • /usr/local/sqoop/bin/sqoop job --show testJob
    

    通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务

    Hive导入Hive

    
    cd /usr/local/hive/bin
    
    hive
    
    # 统计后将结果数据加入另一个表
    INSERT INTO TABLE 
    test_out(name,count,time) 
    SELECT name,count(1),to_date(time) 
    FROM test 
    GROUP BY name,to_date(time);
    
    # 或者
    
    INSERT OVERWRITE 
    TABLE test_out
    SELECT name,count(1),to_date(time) 
    FROM test 
    GROUP BY name,to_date(time);
    

    查看统计结果

    统计成功
    

    Hive导入Mysql

    
    # hive的default库中的test_out表数据导出到mysql的test库test_out表
    
    /usr/local/sqoop/bin/sqoop export \
    --connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
    --username root \
    --password 123456 \
    --input-null-string '\\N' \
    --input-null-non-string '\\N' \
    --input-fields-terminated-by '\t' \
    --table test_out \
    --hcatalog-database default \
    --hcatalog-table test_out \
    -m 1;
    
    
    
    导出成功
    

    可能遇到的问题及注意点

  • hive访问mysql数据库权限问题
  • 服务器1上hive访问mysql如果报错
    
    Access denied for user 'root'@'192.168.84.128' (using password: YES)
    

    mysql需要授权访问者

    GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;
    
    flush privileges;
    
  • 在namenode上执行
  • 报错:
    
    RemoteException(org.apache.hadoop.ipc.StandbyException):
    Operation category READ is not supported in state standby
    
    原因:
    
    服务器1是namenode节点 active 状态
    服务器2是secondNamenode节点是 standby状态
    
    执行命令要在active的namenode才可以
    
  • 只有namenode才会有webui 50070端口
  • 服务器1(192.168.84.128)上安装namenode 有50070端口
    服务器2(192.168.84.131)上安装secondNamenode 有50070端口
    服务器3(192.168.84.132)上没有安装namenode 没有
    

    后记

    接下来研究的方向:
    
    1、hive运行原理
    2、弄一笔数据走一下搭建好的大数据运行环境
    3、10亿数据如何分库分表存储Mysql
    4、10亿数据同步到hive
    5、flink数据如何求交
    
    

    相关推荐

    戴尔笔记本电脑一开机就蓝屏

    笔记本蓝屏可能是电脑硬盘故障,可以更换一个硬盘尝试。也可能是更新了驱动与修复漏洞补丁,可以进入安全模式将更新的驱动删除。有可能是内存条故障,可以把内存条取下来,用橡皮擦轻轻擦拭金手指,然后用毛刷将内存...

    优酷路由宝怎么设置(优酷路由宝怎么设置网络)

    无线连接如果准备用手机、笔记本电脑来设置优酷路由宝,需要先把WAN口,连接宽带网线(宽带猫、光猫);然后手机/笔记本电脑搜索连接到优酷路由宝的WiFi。优酷路由宝的默认WiFi名称是:Youku_开...

    一键装机软件大全(一键装机下载)

    1一键装机工具是一种自动化安装计算机操作系统以及常用软件的工具。2使用一键装机工具,需要先准备好需要安装的操作系统镜像和需要安装的软件列表,然后将它们放在一键装机工具所指定的位置。接下来,打开一键...

    home键是什么意思苹果手机(home键是苹果手机哪个键)

    就是手机屏幕正下方的那个圆形的按钮,就是苹果手机的home键,home键的作用比较大,可以用来设置指纹解锁,单机home键可以返回主屏幕界面,双击home键可以弹出后台应用程序可以进行清楚,还可以通过...

    tplink说明书图片(tp-link路由器说明书步骤图)

    第一步连接路由器WIFI在手机获取IP地址里找到路由器网关地址,第二步在浏览器地址栏输入路由器网关地址,之后会跳转到路由器管理员登录界面,输入账号密码就可以进入路由后台管理路由,如果提示路由器密码错误...

    如何不安装flash玩4399(现在4399不提供flash如何玩游戏)

    没有flash是玩不了的,需要开启flash才可以。1、首先打开浏览器,进入4399的游戏页面。2、进入游戏页面后,点击【已被屏蔽】文字。3、然后右上角会出现窗口,点击【管理】按钮。4、进入管理页面后...

    chrome download apk(chromedownloadapk in english)

    手机下载安装的第三方应用出现问题,无法正常使用,建议按照以下方法操作:1.关闭重新启动该应用。2.建议将此软件卸载重新安装尝试。3.更换其他版本尝试。4.更新下手机系统版本后安装尝试5.备份手机数据(...

    qq空间官网手机登录网页版(qq空间官网登陆入口)
    qq空间官网手机登录网页版(qq空间官网登陆入口)

    z.qq.com可以通过以下方式登录手机QQ空间:1、使用手机登录手机腾讯网3g.qq.com,点击“空间”,根据提示QQ号码和QQ密码就可以登录;2、通过手机直接输入手机QQ空间网址z.qq.com,根据提示操作即可登录;3、下载手机Q...

    2025-12-22 13:55 liuian

    windows11我的电脑在哪里打开

    1/6通过“开始”进入“设置”-“时间和语言”。2/6在“时间和语言”界面选择“区域”3/6这里我们将区域更改位“新加披”,退出。4/6打开微软自带的市场,搜索“你的手机”获取并下载。5/6安装完成后...

    win10怎么取消开机自启动(win10如何关闭开机自动启动)

    要关闭Windows10的开机自动启动程序,你可以按下Win+R键,输入"msconfig"并按回车键打开系统配置工具。在"启动"选项卡中,你可以看到所有开机自动...

    手机cpu排名2025(手机cpu排名榜)

    一、2022手机CPU性能综合排名前八名手机CPU:1、型号:苹果A16---综合分数:暂无2、型号:骁龙8gen1---综合分数:42333、联发科天玑9000---综合分数:38724、...

    论坛系统(论坛系统数据流图)

    BBS是电子布告栏系统的简称,一种网站系统,也是目前流行网络论坛的前身。它允许用户使用终端程序通过调制解调器拨接或者因特网来进行连接,BBS站台提供布告栏、分类讨论区、新闻阅读、软件下载与上传、游戏、...

    hp1020plus打印机无法打印(惠普1020plus打印机突然不能打印了)

     删除惠普打印机驱动和软件:1.如果你的打印机已通过USB连接到电脑,断开USB连接;2.打开控制面板—程序和功能(卸载或更改应用程序);3.在软件列表中找到惠普打印机,将其卸载;4.重启电脑...

    wifi密码破解器电脑版(wifi密码破解工具电脑版)

    肯定不是万能钥匙这种“破解”wifi的东西。不是一两次见到把万能钥匙当做破解wifi用的人了,但实际上那玩意就是个分享wifi的软件。你连上一个wifi,密码就会被分享到云端(可以不分享),别...

    手机临时文件夹在哪个位置(手机临时文件夹在哪个位置找)

    1.手机文件临时文件是指在手机使用过程中产生的临时文件。2.手机应用程序在运行时需要产生一些临时文件,如缓存文件、日志文件、临时下载文件等,这些文件可以提高应用程序的运行效率和用户体验。但是,这些...