jjzjj

java - 将输入 arff 文件拆分成更小的 block 以处理非常大的数据集

我正在尝试在mapreduce上运行weka分类器并加载甚至200mb的整个arff文件导致堆空间错误,所以我想将arff文件分成block,但问题是它必须维护block信息,即每个block中的arff属性信息,以便在每个映射器中运行分类器。这是我尝试拆分数据但效率不高的代码,Listsplits=newArrayList();for(FileStatusfile:listStatus(job)){Pathpath=file.getPath();FileSystemfs=path.getFileSystem(job.getConfiguration());//numberofbyte

hadoop - 如何将 Weka 与 Hadoop 连接起来?

我有一个数据集,我需要为其处理PCA(主成分分析,一种降维程序),使用Weka可以很容易地进行处理。而且由于数据集很大,Weka显示出内存问题,如果我将Weka与Hadoop链接起来就可以解决这个问题。在服务器中使用weka运行算法。任何人都可以帮我解决同样的问题。如何将Weka与Hadoop连接起来以处理更大的数据集?请帮忙!谢谢你.. 最佳答案 Weka3.7有新的Hadoop分布式处理包。这些包提供的其中一项工作将计算Hadoop中的相关(或协方差)矩阵。用户可以选择让作业使用相关矩阵作为PCA分析的输入(这部分在Hadoop

java - Hadoop:无需 Writable 接口(interface)即可将对象作为输出值的简单方法

我正在尝试利用hadoop来训练多个模型。我的数据足够小,可以放入内存,所以我想在每个maptask中训练一个模型。我的问题是,当我完成模型训练后,我需要将它发送到reducer。我正在使用Weka来训练模型。我不想开始寻找如何在Weka类中实现Writable接口(interface),因为它需要很多努力。我正在寻找一种简单的方法来做到这一点。Weka中的Classifier类实现了Serializable接口(interface)。我怎样才能将这个对象发送到reducer?edits这是提到weka对象序列化的链接:http://weka.wikispaces.com/Serial

android - 在 Android 和 PC 之间序列化对象(Dalvik vs JVM)

我正在与一个大型库weka合作,我想在PC版本和Android版本之间传输实例。我宁愿不必重写两者之间的整个序列化,但不管我将其更改为什么UID,我总是会收到此错误:java.io.InvalidClassException:[Lweka.classifiers.functions.MultilayerPerceptron$NeuralEnd;;Incompatibleclass(SUID):[Lweka.classifiers.functions.MultilayerPerceptron$NeuralEnd;:staticfinallongserialVersionUID=-3593

java - Weka模型在android中读取错误

我在机器上创建了我的weka模型并将其导入到android项目中。当我尝试创建分类器时,当我尝试反序列化我创建的模型时,它会给出错误“exception.java.io.StreamCorruptedException”。该代码在机器上完美运行。这是我的代码,InputStreamfis=null;fis=newInputStream("/modle.model");InputStreamis=fis;Classifiercls=null;//hereimgettingtheerrorwhentryingtoreadtheClassifiercls=(Classifier)Serial

mysql - Weka 未知数据类型

我正在尝试将数据库从mysql导入到weka,但问题是即使在加载并显示数据库之后,当我单击“确定”以便我可以开始使用数据库时,消息“未知数据类型:INT”出现。我试过修改DatabaseUtil.props文件,但似乎没有任何效果,所以如果有人能告诉我如何一劳永逸地解决这个问题,我真的很期待。谢谢 最佳答案 您可以从prop文件中的int数据类型行中删除注释,或者将mysqlprop文件包含在内,添加:INT=5因为5是int类型的标识符,所以将mysqlprops文件重命名为DatabaseUtil.props

Weka:Weka是一个开源机器学习平台,它可以运行各种算法,并且提供了良好的交互界面。

作者:禅与计算机程序设计艺术1.简介Weka是一款由斯坦福大学开发的一套用于数据挖掘、统计分析和机器学习的Java环境软件包,其独特的基于GUI的交互模型和丰富的插件系统,使得其成为许多数据科学家和学者的首选工具。它的功能覆盖了数据预处理、特征选择、分类、回归、聚类、关联规则、时间序列预测等方面。同时,Weka还提供了一个易于使用的图形用户接口(GraphicalUserInterface,GUI),可用于快速设置参数、浏览结果并制作报告。Weka已经被广泛应用于数据挖掘、信息检索、生物信息学、计算机视觉、图像处理、文本挖掘、地理信息系统、遗传规划、网络安全、健康保健、金融分析等领域,并得到了

java - 如何在 Mac 上将 LibSVM 类添加到 WEKA 类路径

我正在运行MaxOSX10.7Lion,我想从命令行将WEKA与LibSVM结合使用。我收到此错误:Problemevaluatingclassifier:libsvmclassesnotinCLASSPATH!我找到了LibSVM库here.我需要将它添加到我的Java类路径中,以便WEKA可以找到它。下载包含多个文件,如下所示。我不知道如何将它们添加到我的Java类路径中。我正在尝试在WEKA中使用LibSVM分类器,因为它比SMO更适合我。我也不确定这是否意味着Java类路径或者它是否特定于WEKA。我也不知道从哪里得到这些类(class)。感谢您的帮助。

java - 创建未标记实例时出现 weka.core.UnassignedDatasetException

我用我手动创建的一些训练数据训练了一个IBK分类器,如下所示:ArrayListatts=newArrayList();ArrayListclassVal=newArrayList();classVal.add("C1");classVal.add("C2");atts.add(newAttribute("a"));atts.add(newAttribute("b"));atts.add(newAttribute("c"));atts.add(newAttribute("d"));atts.add(newAttribute("@@class@@",classVal));Instance

java - Weka 中 FP-Growth 的数据要求是什么?

我想在我的Weka数据集(模型)上使用FP-Growth关联规则算法。不幸的是,这个算法是灰色的。我必须满足哪些先决条件才能使用它? 最佳答案 答案/解决方案:Weka实现的每个算法都有某种与之关联的摘要信息。为了从GUI中看到它,必须单击算法(或过滤器)选项,然后再次单击Capabilities按钮。然后会出现一个小弹出窗口,其中包含有关特定算法的一些信息。在FPGrowth的情况下-模型属性需要是binary类型。在我的例子中,我混合了标称参数和数字参数。我必须应用NominalToBinary过滤器将我的标称属性转换为二进制值