1.前言开源的ETL工具里面DataX和Kettle的人气一直高居不下,datax虽然比较年轻,但这两年发展势头很猛,不时就能听到身边的同事谈起。kettle作为老牌的etl工具,诞生年限长,功能完善,特别是其开箱即用的数据转换算子,不得不令人叹服。因此,笔者决定对这两款工具进行深入的对比分析,有多深呢,到源码那种。2.DataXDataX是阿里开源的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologre
一、研发背景 DataX官方开源的版本支持HDFS文件的读写,并没有支持基于JDBC的Hive数据读写,很多时候一些数据同步不太方便,比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL,将SQL执行结果写入下游等各种场景,实际上还是需要Hive插件来支持。而在实际工作中,我们也遇到了类似的一些情况需要二次开发DataX以支持此类场景。本插件已在生产环境稳定运行一年有余,现分享给大家,如有问题也可联系我。二、HiveReader插件介绍 hivereader插件比较简单,共有三个类,两个配置文件。其中:HiveReader:实现DataX
一、研发背景 DataX官方开源的版本支持HDFS文件的读写,并没有支持基于JDBC的Hive数据读写,很多时候一些数据同步不太方便,比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL,将SQL执行结果写入下游等各种场景,实际上还是需要Hive插件来支持。而在实际工作中,我们也遇到了类似的一些情况需要二次开发DataX以支持此类场景。本插件已在生产环境稳定运行一年有余,现分享给大家,如有问题也可联系我。二、HiveReader插件介绍 hivereader插件比较简单,共有三个类,两个配置文件。其中:HiveReader:实现DataX
参考博客:Datax二次开发插件详细过程_键盘上的艺术家w的博客-CSDN博客_dataxkafkareader简书-DataXkafkawriter 背景基于阿里开源DataX3.0版本,开发kafka的读写驱动,可以实现从mysql、postgresql抽取数据到kafka,从kafka消费消息写入hdfs等功能。1、整体模块代码结构1、kafkareader2、kafkawriter 3、package.xmlkafkareader/target/datax/**/*.*dataxkafkawriter/target/datax/**/*.*datax4、pom.xmlkafkaread
参考博客:Datax二次开发插件详细过程_键盘上的艺术家w的博客-CSDN博客_dataxkafkareader简书-DataXkafkawriter 背景基于阿里开源DataX3.0版本,开发kafka的读写驱动,可以实现从mysql、postgresql抽取数据到kafka,从kafka消费消息写入hdfs等功能。1、整体模块代码结构1、kafkareader2、kafkawriter 3、package.xmlkafkareader/target/datax/**/*.*dataxkafkawriter/target/datax/**/*.*datax4、pom.xmlkafkaread
文章目录HBase导入到MySQL一、HbaseReader插件二、使用normal模式的案例<
文章目录HBase导入到MySQL一、HbaseReader插件二、使用normal模式的案例<
1、准备基础镜像,开通所需端口firewall-cmd--zone=public--add-port=3306/tcp--permanentfirewall-cmd--zone=public--add-port=9527/tcp--permanentfirewall-cmd--reloadsystemctlstopdockersystemctlrestartdockerdockerpullmysql:8.0.27dockerpulllinshellfeng/datax_web:3.0.1注意:datax_web:3.0.1镜像已经整合了datax3.0和datax-web,整合后的镜像大小约9
1、准备基础镜像,开通所需端口firewall-cmd--zone=public--add-port=3306/tcp--permanentfirewall-cmd--zone=public--add-port=9527/tcp--permanentfirewall-cmd--reloadsystemctlstopdockersystemctlrestartdockerdockerpullmysql:8.0.27dockerpulllinshellfeng/datax_web:3.0.1注意:datax_web:3.0.1镜像已经整合了datax3.0和datax-web,整合后的镜像大小约9
目录一、概述二、DataX3.0框架设计三、DataX3.0架构1)核心模块介绍2)DataX调度流程四、环境部署1)下载2)设置环境变量3)官方示例五、实战示例1)MYSQLtoHDFS1、准备好库表数据2、配置json文件3、执行4、验证1)MYSQLtoHive1、准备好hive库表数据2、配置json文件3、执行4、验证3)HDFStoMYSQL1、准备好HDFS文件数据2、准备好MySQL表3、配置json文件4、执行5、验证六、DataX-WEB安装部署1)下载2)解压3)配置环境变量4)创建dataxweb数据库5)执行一键安装脚本6)修改配置1、修改datax-admin配置2