我找到了一些关于如何创建我自己的非分布式推荐系统的教程,但没有找到如何创建我自己的分布式推荐系统作业的教程(如果您知道,欢迎提供任何链接)。在“MahoutinAction”一书中有一些如何使用Mahout的对象编写Mappers/Reducers的示例,但似乎没有说明如何将这些工作放在一起?但是在mahout-core中有item/RecommenderJob给出了如何做到这一点的想法。我的实际意图是替换第一个映射器,这样我就不必在mahout之外准备我的数据(行看起来像“userid、itemid1、itemid2、itemid3...”并使用item.RecommenderJob
在hdfs的input目录下添加lined-sinple-sorted.txt和users.txt后。我正在尝试运行以下命令。hduser@ubuntu:/usr/local/hadoop$bin/hadoopjar/opt/mahout/core/target/mahout-core-0.7-SNAPSHOT-job.jarorg.apache.mahout.cf.taste.hadoop.item.RecommenderJob-Dmapred.input.dir=input/input.txt-Dmapred.output.dir=output--similarityClassna
我已成功将输入文件“input.txt”和“users.txt”添加到HDFS。我已经成功地分别测试了Hadoop和Mahout作业。但是,当我使用以下命令行运行RecommenderJob时:bin/hadoopjar/Applications/mahout-distribution-0.9/mahout-core-0.9-job.jarorg.apache.mahout.cf.taste.hadoop.item.RecommenderJob-Dmapred.input.dir=/user/valtera45/input/input.txt-Dmapred.output.dir=/u
这是我的第一篇SO帖子,所以如果我错过了任何重要的事情,请告诉我。我是Mahout/Hadoop初学者,正在尝试组装一个分布式推荐引擎。为了模拟在远程集群上工作,我在我的机器上设置了hadoop以与UbuntuVM(使用VirtualBox)进行通信,该VM也位于我的机器上,并安装了hadoop。此设置似乎运行良好,我现在正尝试在(非常!)小型试验数据集上运行Mahout的“RecommenderJob”作为测试。输入包含一个.csv文件(保存在hadoopdfs上),其中包含大约50个用户首选项,格式为:userID,itemID,preference...和我正在运行的命令是:ha