jjzjj

TextOutputFormat

全部标签

Hadoop:如何在同一个作业中输出不同的格式类型? (第二部分)

我想使用MultipleOutputs在同一个reducer中写入压缩和未压缩的文件,但它似乎是全有或全无。如果我这样做:MultipleOutputs.addNamedOutput(job,"ToGzip",TextOutputFormat.class,NullWritable.class,Text.class);TextOutputFormat.setCompressOutput(job,true);TextOutputFormat.setOutputCompressorClass(job,GzipCodec.class);它将压缩所有内容,而不仅仅是我想要的文件。如果你看这个非常

Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat

我正在使用Hadoop运行ETL作业,我需要将经过转换的有效数据输出到HBase,并将该数据的外部索引输出到MySQL。我最初的想法是,我可以使用MultipleOutputFormats通过HFileOutputFormat(键是Text,值是ProtobufWritable)和TextOutputFormat的索引(键是Text,值是Text)导出转换后的数据。平均大小的作业(我需要同时运行多个作业的能力)的输入记录数约为7亿。我想知道A)就效率和复杂性而言,这似乎是一种合理的方法,以及B)如果可能的话,如何使用CDH3发行版的API来实现这一点。 最佳

Hadoop 0.2 : How to read outputs from TextOutputFormat?

我的reducer类使用TextOutputFormat(Job给出的默认OutputFormat)生成输出。我喜欢在MapReduce作业完成后使用此输出来聚合输出。除此之外,我喜欢用TextInputFormat写出聚合信息,以便MapReduce任务的下一次迭代可以使用此过程的输出。谁能给我一个关于如何使用TextFormat进行书写和阅读的示例?顺便说一句,我使用TextFormat而不是Sequence的原因是互操作性。任何软件都应该使用输出。 最佳答案 暂时不要排除序列文件;它们使链接MapReduce作业变得快速和容易

java - 在 Hadoop 中是否可以为 TextOutputFormat 指定记录分隔符

我看到一种机制可以使用mapreduce.textoutputformat.separator(使用1.03的api)覆盖键和值之间的分隔符。但我希望能够控制记录之间的分隔符。仅供引用,我使用ArrayWritable作为值,使用NullWritable作为键。 最佳答案 据我所知,这是不可能的,因为TextOutputFormat使用toString()来获取值的文本表示,在ArrayWritable它没有实现toString(),所以如果您要编写一个ArrayWritable,您可能会得到默认的Object.toString()