jjzjj

maxLineLength

全部标签

hadoop - 用于单行和多行日志的自定义 RecordReader

我正在尝试创建一个MR作业,它将更改通过Flume加载到HDFS中的日志文件的格式。我正在尝试将日志转换为一种格式,其中字段由“:::”分隔。例如date/timestamp:::log-level:::rest-of-log我遇到的问题是有些日志是单行的,有些是多行的,我需要在日志的其余字段中保持多行日志的完整性。我已经编写了一个自定义的InputFormat和RecordReader来尝试执行此操作(基本上只是修改了NLineRecordReader以追加行,直到它到达日期戳,而不是附加固定数量的行)。我用来格式化日志的MR作业似乎工作正常,但RecordReader似乎无法正常工