日志Tcpdumps是二进制文件,我想知道我应该使用什么hadoop的FileInputFormat来分割输入数据block...请帮助我!! 最佳答案 用户列表中有一个关于此的主题:http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward基本上,该格式不可拆分,因为您无法在文件中找到从任意偏移量开始的记录的开头。所以你必须做一些预处理,插入同步点或类似的东西。也许将较小的文件隐藏成序列文件,然后合