Oracle R Enterprise (ORE) KMeans 包

coder 2024-01-08 原文

我的任务是在 SAS 服务器上运行 K-Means 聚类算法，但内存不足。数据集是 500G，我知道我可以对其进行采样以适合内存，但如果我想在整个数据上运行模型，Oracle R Enterprise (ORE) 会帮助解决我的问题吗？

关于 ORE 和 ORCH 的其他相关问题:

Oracle R 包是否包含任何聚类算法？是否有可用的 Oracle R 包列表？
如果我在 Oracle R Enterprise 中运行 kmeans 算法(R CRAN 包)，我是否也会遇到内存问题？
BDA 中是否有任何 R 集群包可用，可以在分布式 Hadoop 集群上运行？

谢谢

最佳答案

您最好的选择是在 Hadoop 上使用 Mahout。 Mahout 确实支持 K-Means 聚类，如所述 here在 Hadoop 上设置 Mahout 非常容易。

如果您可以使用几台机器构建自己的 Hadoop 集群，运行 Mahout 将需要 30 分钟左右。当我几天前尝试时 this blog极大地帮助了我。

您也可以这样做并节省大量金钱和时间。

我没有谈论使用 Oracle R，只是因为，首先我对 Oracle R 了解不多，但我知道 Hadoop 上的 Mahout 会比其他任何工具更好地帮助您，因为有很多有关如何在短时间内完成它的资源。如果你真的在寻找 Oracle R，这不是答案，否则它肯定是。

关于Oracle R Enterprise (ORE) KMeans 包，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10840862/

有关Oracle R Enterprise (ORE) KMeans 包的更多相关文章

c++ - 使用 OpenCV 的 Kmeans 聚类中的马哈拉诺比斯距离 - 2
我已经完成了Kmeans聚类，并使用OpenCVC++API找到了聚类中心。kmeans(data_points,clusterCount,labels,TermCriteria(CV_TERMCRIT_EPS+CV_TERMCRIT_ITER,10,1.0),3,KMEANS_PP_CENTERS,cluster_centers);然后我使用欧几里德距离找到最近的集群，针对所有集群中心的新数据点>.intdistance=find_EucledianDist(new_datapoint,cluster_centers);如何使用马哈拉诺比斯距离而不是欧氏距离？我知道我必须计算协方差矩
Oracle R Enterprise (ORE) KMeans 包 - 2
我的任务是在SAS服务器上运行K-Means聚类算法，但内存不足。数据集是500G，我知道我可以对其进行采样以适合内存，但如果我想在整个数据上运行模型，OracleREnterprise(ORE)会帮助解决我的问题吗？关于ORE和ORCH的其他相关问题:OracleR包是否包含任何聚类算法？是否有可用的OracleR包列表？如果我在OracleREnterprise中运行kmeans算法(RCRAN包)，我是否也会遇到内存问题？BDA中是否有任何R集群包可用，可以在分布式Hadoop集群上运行？谢谢最佳答案您最好的选择是在Had
c++ - OpenCV 聚类函数 cv KMeans2() - 数组中的聚类中心类型是什么？ - 2
我正在使用OpenCV库中的函数cvKMeans2()进行聚类。它有可选参数:centers-聚类中心的可选输出数组相同的参数也在函数kmeans()中。我想了解有关集群的信息。但是我没有在数组中找到那个聚类中心是什么类型，所以我无法得到它。感谢您的任何建议! 最佳答案在OpenCV2.0中，等效的kmeans函数采用CV_32FC1矩阵，但OpenCV2.0对旧的kmeans2函数进行了相当大的升级，因此我无法确定聚类中心数据类型是否仍与OpenCV1.1版本相同. 关于c++-Op
python实现kmeans聚类 - 2
目录一、先上手撸代码！1、导库、导数据 2、核心算法3、可视化部分二、调库代码！（sklearn）一、先上手撸代码！1、首先是导入所需要的库和数据importpandasaspdimportnumpyasnpimportrandomimportmathimportmatplotlib.pyplotasplt#这两行代码解决plt中文显示的问题plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falsedf=pd.read_excel('13信科学生成绩.xlsx')data=np.arra
python - scipy.cluster.vq.kmeans2 中的 "Matrix is not positive definite"错误 - 2
我正在尝试对128维点(图像中兴趣点的描述符)执行kmeans聚类。当我使用scipy.cluster.vq.kmeans2函数时，有时会出现以下错误:File"main.py",line21,inlevel_routinecurrent.centroids,current.labels=cluster.vq.kmeans2(current.descriptors,k)File"/usr/lib/python2.7/dist-packages/scipy/cluster/vq.py",line706,inkmeans2clusters=init(data,k)File"/usr/lib
机器学习：学习KMeans算法，了解模型创建、使用模型及模型评价 - 2
机器学习：学习KMeans算法，了解模型创建、使用模型及模型评价作者：i阿极作者简介：Python领域新星作者、多项比赛获奖者：博主个人首页😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏📁评论📒+关注哦！👍👍👍📜📜📜如果有小伙伴需要数据集和学习交流，文章下方有交流学习区！一起学习进步！💪专栏案例：机器学习机器学习：基于逻辑回归对某银行客户违约预测分析机器学习：学习k-近邻（KNN）模型建立、使用和评价机器学习：基于支持向量机（SVM）进行人脸识别预测决策树算法分析天气、周末和促销活动对销量的影响机器学习：线性回归分析女性身高与体重之间的关系机器学习：基于主成分分析（PCA）对数据降维机
Python KMeans 聚类单词 - 2
我有兴趣对距离度量为Leveshtein的单词列表执行kmeans聚类。1)我知道有很多框架，包括具有kmeans实现的scipy和orange。然而，它们都需要某种向量作为数据，这并不适合我。2)我需要一个好的集群实现。我查看了python聚类并意识到它不会a)返回到每个质心的所有距离的总和，并且b)它没有任何类型的迭代限制或截止以确保聚类的质量。python聚类和daniweb上的聚类算法对我来说并不适用。有人能帮我找到一个好的库吗？Google不是我的friend 最佳答案是的，我认为我需要的东西没有很好的实现。我有一些疯狂
python - KMeans是否在sklearn中自动归一化特征 - 2
我想知道KMeans是否会在进行聚类之前自动对特征进行归一化。似乎没有提供输入以请求规范化的选项。最佳答案一个区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing用于数据预处理。此外，数据可以通过不同的预处理器进行链式预处理。至于K均值，仅对均值进行归一化通常是不够的。由于K-means对数据中的方差敏感，并且具有较大方差的特征更强调结果，因此人们对不同特征的数据均衡方差进行归一化。所以对于K-means，我建议使用StandardScaler用于数据预处理。不要忘记k-mea
python - KMeans聚类后的聚类点(scikit learn) - 2
我已经使用sklearn使用Kmeans完成了聚类。虽然它有一种打印质心的方法，但我发现scikit-learn没有一种方法可以打印出每个集群的集群点(或者我到目前为止还没有看到它)，这很奇怪。有没有一种巧妙的方法来获取每个集群的集群点？我目前有这个相当笨拙的代码来执行此操作，其中V是数据集:defgetClusterPoints(V,labels):clusters={}forlinrange(0,max(labels)+1):data_points=[]indices=[ifori,xinenumerate(labels)ifx==l]foridxinindices:data_po
python - Sklearn.KMeans() : Get class centroid labels and reference to a dataset - 2
Sci-Kit学习Kmeans和PCA降维我有一个200万行x7列的数据集，其中包含不同的家庭用电量测量值以及每个测量值的日期。日期，Global_active_power,Global_reactive_power,电压，全局强度，Sub_metering_1，Sub_metering_2，Sub_metering_3我将我的数据集放入pandas数据框中，选择除日期列之外的所有列，然后执行交叉验证拆分。importpandasaspdfromsklearn.cross_validationimporttrain_test_splitdata=pd.read_csv('househo

Oracle R Enterprise (ORE) KMeans 包

有关Oracle R Enterprise (ORE) KMeans 包的更多相关文章

随机推荐