jjzjj

addInputPaths

全部标签

java - Hadoop Mapreduce 让 addInputPath 使用特定文件名

嘿,这更像是一个java问题,但它与Hadoop相关。我的MapReducejava作业中的代码中有这一行:JobConfconf=newJobConf(WordCount.class);conf.setJobName("WordCount");.......................................FileInputFormat.addInputPath(conf,newPath(args[0]));我如何设置特定的文件名,而不是“给”一个包含许多文件的目录? 最佳答案 摘自《Hadoop:权威指南》一书:A

hadoop - 可以使 Hadoop MultipleInputs.addInputPath 递归工作吗?

最近版本的Hadoop已经使用FileInputFormat.setInputDirRecursive轻松支持嵌套输入目录,它依赖于mapreduce.input.fileinputformat.input.dir.recursive配置键。也可以使用MultipleInputs.addInputPath指定多个映射器/输入目录组合。但是我可以同时做这两件事吗?换句话说,有没有一种方法可以指定多个映射器/输入目录组合,其中递归地包含输入目录?一个具体的例子:我有以下目录结构:/dataset1/subdir1/data1.txt/dataset2/subdir2/data2.txt我试

java - b/w setInputPaths(..) 和 addInputPaths(..) 有什么区别?

我正在尝试实现eclipse文档中给出的简单字数统计。相同的程序在终端上运行,但是当我尝试在eclipse中运行它时,我从运行配置中传递参数参数是:/home/rachit/wordcount/input/home/rachit/wordcount/outputGotthisexception:Exceptioninthread"main"java.lang.NullPointerExceptionatorg.apache.hadoop.mapreduce.lib.input.FileInputFormat.getBlockIndex(FileInputFormat.java:442)

hadoop - MapReduce驱动的addInputPath错误

我在MapReduce驱动程序的addInputPath方法中遇到错误。错误是"ThemethodaddInputPath(Job,Path)inthetypeFileInputFormatisnotapplicableforthearguments(JobConf,Path)"这是我的驱动程序代码:packageorg.myorg;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apa