jjzjj

HdfsReader

全部标签

DataX二次开发——HdfsReader和HdfsWriter插件增加parquet文件读写

一、研发背景  DataX官方开源的版本支持HDFS文件的读写,但是截止目前,并没有支持Parquet文件的读写,得益于DataX出色的数据同步性能,去年公司的项目大部分采用了DataX作为数据同步工具,但是从CDH集群同步Parquet或者将其他数据源的数据以Parquet格式写入HDFS,这两个常用场景没有进行支持。因此只能自己动手,补充HdfsReader和HdfsWriter插件,以支持Parquet文件的读写。二、HdfsReader插件  本插件比较简单,一共五个类,具体类名及对应修改项如下:DFSUtil:增加是否Parquet文件类型判断方法、增加Parquet文件读取转换方法

DataX二次开发——HdfsReader和HdfsWriter插件增加parquet文件读写

一、研发背景  DataX官方开源的版本支持HDFS文件的读写,但是截止目前,并没有支持Parquet文件的读写,得益于DataX出色的数据同步性能,去年公司的项目大部分采用了DataX作为数据同步工具,但是从CDH集群同步Parquet或者将其他数据源的数据以Parquet格式写入HDFS,这两个常用场景没有进行支持。因此只能自己动手,补充HdfsReader和HdfsWriter插件,以支持Parquet文件的读写。二、HdfsReader插件  本插件比较简单,一共五个类,具体类名及对应修改项如下:DFSUtil:增加是否Parquet文件类型判断方法、增加Parquet文件读取转换方法