我们有很多小文件需要合并。在Scalding中,您可以使用TextLine将文件读取为文本行。问题是我们每个文件有1个映射器,但我们想要组合多个文件,以便它们由1个映射器处理。我知道我们需要将输入格式更改为CombineFileInputFormat的实现,这可能涉及使用级联CombinedHfs。我们不知道如何做到这一点,但它应该只是几行代码来定义我们自己的Scalding源,例如CombineTextLine。非常感谢任何可以提供代码的人。作为附带问题,我们在s3中有一些数据,如果给定的解决方案适用于s3文件,那就太好了——我想这取决于CombineFileInputFormat还
CreateScaldingSourcelikeTextLinethatcombinesmultiplefilesintosinglemappers我们有许多需要合并的小文件。在Scalding中,您可以使用TextLine将文件读取为文本行。问题是我们每个文件有1个映射器,但我们想组合多个文件,以便它们由1个映射器处理。我知道我们需要将输入格式更改为CombineFileInputFormat的实现,这可能涉及使用级联CombinedHfs。我们无法弄清楚如何做到这一点,但应该只需要几行代码来定义我们自己的名为CombineTextLine.的Scalding源非常感谢任何可以提供代码的人。
CreateScaldingSourcelikeTextLinethatcombinesmultiplefilesintosinglemappers我们有许多需要合并的小文件。在Scalding中,您可以使用TextLine将文件读取为文本行。问题是我们每个文件有1个映射器,但我们想组合多个文件,以便它们由1个映射器处理。我知道我们需要将输入格式更改为CombineFileInputFormat的实现,这可能涉及使用级联CombinedHfs。我们无法弄清楚如何做到这一点,但应该只需要几行代码来定义我们自己的名为CombineTextLine.的Scalding源非常感谢任何可以提供代码的人。