Mahout_JJZJJ

windows - 在 mahout 安装 grouplens 数据时出现问题

通过链接(http://girlincomputerscience.blogspot.com/2010/11/apache-mahout.html)安装mahout的任务在将liberary复制到task-web文件夹的过程中。我遇到这样的错误......命令cp../examples/target/grouplens.jar./liberror:cp:cannotstat'cp../examples/target/grouplens.jar'Nosuchfileordirectory..未找到目标文件夹的grouplens.jar..提前致谢....维尼什

时出 grouplens section code windows cygwin mahout

java - 如何以编程方式查找网址是电子商务网站还是非电子商务网站？

在一个项目中有一个模块获取一个URL并确定它是“电子商务”还是“非电子商务”网站。我尝试了以下方法:使用Apachemahout，分类:URL--->获取html转储--->预处理html转储a)删除所有html标签b)删除停用词(也称为常用词)，如CDATA、href、value和、of、between等。c)训练模型然后测试它。以下是我用于训练的参数bin/mahouttrainclassifier\-itraining-data\-obayes-model\>-typebayes-ng1测试:/bin/mahouttestclassifier\-dtest-data\-mbaye

商务网站何以 section 贝叶 java machine-learning classification mahout

c# - Apache Mahout .net 模拟的机器学习库

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion是否有像Mahout这样的.net库。您可以为机器学习推荐什么？

c#Apache section class notice java machine-learning data-mining

hadoop - 单节点hadoop有没有并行性？

我是hadoop的新手。我可以在单节点hadoop中运行mahout示例。单节点hadoop有没有并行性？(例如在作业、block、)(在我的工作负载中，hadoop比WEKA运行得更快) 最佳答案您所指的模式与伪分布式模式相同。这是一个单节点集群。在这里，您有一个名称节点、一个作业跟踪器以及一个正在运行的数据节点和任务跟踪器。您可以使用“jps”命令进行验证。默认情况下，tasktracker最多可以并行运行两个map和reduce任务(mapred.tasktracker.map.tasks.maximum和mapred.ta

hadoop 单 section 跟踪器 parallel-processing mahout

linux - 运行此命令时出现错误 mahout trainnb -i path_to/train-vectors -el -li path_to/labelindex -o path_to/model -ow -c

见附图。我在本地使用mahout。我已将序列文件转换为稀疏向量，并将该集合分成两组:训练集和测试集:mahoutsplit-itweets-vectors/tfidf-vectors--trainingOutputtrain-vectors--testOutputtest-vectors--randomSelectionPct40--overwrite--sequenceFiles-xmsequential.运行此命令时出现错误mahouttrainnb-itrain-vectors-el-lilabelindex-omodel-ow-c 最佳答案

path_to 时出 section vectors linux hadoop hdfs mahout

hadoop - 构建数据模型时 Mahout 出现 NumberFormatException

当我在Mahout的itemBasedRecommender的训练数据中使用字符串值属性时，我得到了一个NumberFormatException，它是在从文件中的数据构建FileDataModel的过程中抛出的。如果字符串属性值为“1.0”，这基本上是一个表示为字符串的数字，那么它不会抛出NumberFormatException。但如果属性值为“Washington”，则会抛出NumberFormatException。有没有什么解决方案可以让我在Mahout中的Recommenders训练数据中将字符串属性值(如“Washington”)作为itemID/userID传递？我正在

NumberFormatException hadoop section Mahout

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗？如果是这样，对我们可以运行的算法有什么限制吗？最佳答案是的，mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP

何在 hadoop section mahout Spark apache-spark

hadoop - Hadoop 平台中除 mahout 之外的任何其他机器学习库

我正在做一个利用机器学习算法的项目，我选择hadoop/mahout因为它可以更好地处理大数据。但是mahout只集成了很少的算法，(不包括一些算法，比如SVM)所以我想知道Hadoop平台上除了mahout还有其他机器学习库如果是这样，我对新图书馆有一些疑问是否支持分布式计算是正式版吗？有什么支持吗？非常感谢~ 最佳答案看看ApacheHama，它们具有简单的ML算法，例如LogisticRegression或K-means聚类。以后会有更多的算法。这是他们的网站:http://hama.apache.org/

hadoop section code mahout machine-learning

java - 包括核心和数学文件夹的 Mahout 数学库类 - Eclipse - Hadoop

我的问题与此类似:HowdoIbuild/runthissimpleMahoutprogramwithoutgettingexceptions?,但有点复杂。我正在编写Hadoop代码，并且想使用Mahout数学库(例如SparseRowMatrix和VectorWritable类)。问题是前一个示例类位于Mahout最新SNAPSHOT的math文件夹中，而后者位于core文件夹下，并且两者共享与根文件夹(org.apache.mahout.math).问题是我没有找到让Hadoopjar文件正确导入与数学相关的类的方法，而是位于Mahout项目的Core文件夹下。我正在使用Ecli

和数 Eclipse section Mahout code java hadoop

hadoop - 如何编写简单的 map-reduce 作业以将制表符分隔的文本文件转换为序列文件？

我想将一个文本文件作为映射器的输入并输出一个序列文件。如何编写一个简单的map-reduce作业？文本文件将具有制表符分隔值。例如输入:group112345对于这样的输入，我想创建输出序列文件，其键为“group1”，其值应为12345的向量。我怎样才能写这些工作？另外我觉得在这种情况下我不需要reducer。在这种情况下如何编写identityreducer作业？我可以跳过编写reducer作业吗？感谢任何帮助。问候。最佳答案是的，您可以跳过编写Reducer。将其设置为简单的Reducer.class。同时调用setNum

制表符 map-reduce code section 编写 hadoop mapreduce mahout