weka

java - 将输入 arff 文件拆分成更小的 block 以处理非常大的数据集

我正在尝试在mapreduce上运行weka分类器并加载甚至200mb的整个arff文件导致堆空间错误，所以我想将arff文件分成block，但问题是它必须维护block信息，即每个block中的arff属性信息，以便在每个映射器中运行分类器。这是我尝试拆分数据但效率不高的代码，Listsplits=newArrayList();for(FileStatusfile:listStatus(job)){Pathpath=file.getPath();FileSystemfs=path.getFileSystem(job.getConfiguration());//numberofbyte

hadoop - 如何将 Weka 与 Hadoop 连接起来？

我有一个数据集，我需要为其处理PCA(主成分分析，一种降维程序)，使用Weka可以很容易地进行处理。而且由于数据集很大，Weka显示出内存问题，如果我将Weka与Hadoop链接起来就可以解决这个问题。在服务器中使用weka运行算法。任何人都可以帮我解决同样的问题。如何将Weka与Hadoop连接起来以处理更大的数据集？请帮忙!谢谢你.. 最佳答案 Weka3.7有新的Hadoop分布式处理包。这些包提供的其中一项工作将计算Hadoop中的相关(或协方差)矩阵。用户可以选择让作业使用相关矩阵作为PCA分析的输入(这部分在Hadoop

hadoop section Weka pca

java - Hadoop:无需 Writable 接口(interface)即可将对象作为输出值的简单方法

我正在尝试利用hadoop来训练多个模型。我的数据足够小，可以放入内存，所以我想在每个maptask中训练一个模型。我的问题是，当我完成模型训练后，我需要将它发送到reducer。我正在使用Weka来训练模型。我不想开始寻找如何在Weka类中实现Writable接口(interface)，因为它需要很多努力。我正在寻找一种简单的方法来做到这一点。Weka中的Classifier类实现了Serializable接口(interface)。我怎样才能将这个对象发送到reducer？edits这是提到weka对象序列化的链接:http://weka.wikispaces.com/Serial

将对 interface hadoop apache java serialization weka

android - 在 Android 和 PC 之间序列化对象(Dalvik vs JVM)

我正在与一个大型库weka合作，我想在PC版本和Android版本之间传输实例。我宁愿不必重写两者之间的整个序列化，但不管我将其更改为什么UID，我总是会收到此错误:java.io.InvalidClassException:[Lweka.classifiers.functions.MultilayerPerceptron$NeuralEnd;;Incompatibleclass(SUID):[Lweka.classifiers.functions.MultilayerPerceptron$NeuralEnd;:staticfinallongserialVersionUID=-3593

android section MultilayerPerceptron serialVersionUID serialization jvm dalvik weka

java - Weka模型在android中读取错误

我在机器上创建了我的weka模型并将其导入到android项目中。当我尝试创建分类器时，当我尝试反序列化我创建的模型时，它会给出错误“exception.java.io.StreamCorruptedException”。该代码在机器上完美运行。这是我的代码，InputStreamfis=null;fis=newInputStream("/modle.model");InputStreamis=fis;Classifiercls=null;//hereimgettingtheerrorwhentryingtoreadtheClassifiercls=(Classifier)Serial

android java testWekaModle1 testWekaModle android-studio machine-learning weka

mysql - Weka 未知数据类型

我正在尝试将数据库从mysql导入到weka，但问题是即使在加载并显示数据库之后，当我单击“确定”以便我可以开始使用数据库时，消息“未知数据类型:INT”出现。我试过修改DatabaseUtil.props文件，但似乎没有任何效果，所以如果有人能告诉我如何一劳永逸地解决这个问题，我真的很期待。谢谢最佳答案您可以从prop文件中的int数据类型行中删除注释，或者将mysqlprop文件包含在内，添加:INT=5因为5是int类型的标识符，所以将mysqlprops文件重命名为DatabaseUtil.props

mysql Weka section code database data-mining

Weka：Weka是一个开源机器学习平台，它可以运行各种算法，并且提供了良好的交互界面。

作者：禅与计算机程序设计艺术1.简介Weka是一款由斯坦福大学开发的一套用于数据挖掘、统计分析和机器学习的Java环境软件包，其独特的基于GUI的交互模型和丰富的插件系统，使得其成为许多数据科学家和学者的首选工具。它的功能覆盖了数据预处理、特征选择、分类、回归、聚类、关联规则、时间序列预测等方面。同时，Weka还提供了一个易于使用的图形用户接口(GraphicalUserInterface,GUI)，可用于快速设置参数、浏览结果并制作报告。Weka已经被广泛应用于数据挖掘、信息检索、生物信息学、计算机视觉、图像处理、文本挖掘、地理信息系统、遗传规划、网络安全、健康保健、金融分析等领域，并得到了

Weka 开源斯坦福大学斯坦自然语言处理人工智能语言模型编程实践开发语言架构设计

java - 如何在 Mac 上将 LibSVM 类添加到 WEKA 类路径

我正在运行MaxOSX10.7Lion，我想从命令行将WEKA与LibSVM结合使用。我收到此错误:Problemevaluatingclassifier:libsvmclassesnotinCLASSPATH!我找到了LibSVM库here.我需要将它添加到我的Java类路径中，以便WEKA可以找到它。下载包含多个文件，如下所示。我不知道如何将它们添加到我的Java类路径中。我正在尝试在WEKA中使用LibSVM分类器，因为它比SMO更适合我。我也不确定这是否意味着Java类路径或者它是否特定于WEKA。我也不知道从哪里得到这些类(class)。感谢您的帮助。

何在 LibSVM section java macos weka

java - 创建未标记实例时出现 weka.core.UnassignedDatasetException

我用我手动创建的一些训练数据训练了一个IBK分类器，如下所示:ArrayListatts=newArrayList();ArrayListclassVal=newArrayList();classVal.add("C1");classVal.add("C2");atts.add(newAttribute("a"));atts.add(newAttribute("b"));atts.add(newAttribute("c"));atts.add(newAttribute("d"));atts.add(newAttribute("@@class@@",classVal));Instance

时出记实 instanceValue double new java machine-learning classification weka

java - Weka 中 FP-Growth 的数据要求是什么？

我想在我的Weka数据集(模型)上使用FP-Growth关联规则算法。不幸的是，这个算法是灰色的。我必须满足哪些先决条件才能使用它？最佳答案答案/解决方案:Weka实现的每个算法都有某种与之关联的摘要信息。为了从GUI中看到它，必须单击算法(或过滤器)选项，然后再次单击Capabilities按钮。然后会出现一个小弹出窗口，其中包含有关特定算法的一些信息。在FPGrowth的情况下-模型属性需要是binary类型。在我的例子中，我混合了标称参数和数字参数。我必须应用NominalToBinary过滤器将我的标称属性转换为二进制值

求是 FP-Growth code section 标称 java data-mining weka

1 2 345 6 7