jjzjj

Oracle R Enterprise (ORE) KMeans 包

coder 2024-01-08 原文

我的任务是在 SAS 服务器上运行 K-Means 聚类算法,但内存不足。数据集是 500G,我知道我可以对其进行采样以适合内存,但如果我想在整个数据上运行模型,Oracle R Enterprise (ORE) 会帮助解决我的问题吗?

关于 ORE 和 ORCH 的其他相关问题:

  1. Oracle R 包是否包含任何聚类算法?是否有可用的 Oracle R 包列表?
  2. 如果我在 Oracle R Enterprise 中运行 kmeans 算法(R CRAN 包),我是否也会遇到内存问题?
  3. BDA 中是否有任何 R 集群包可用,可以在分布式 Hadoop 集群上运行?

谢谢

最佳答案

您最好的选择是在 Hadoop 上使用 Mahout。 Mahout 确实支持 K-Means 聚类,如所述 here在 Hadoop 上设置 Mahout 非常容易。

如果您可以使用几台机器构建自己的 Hadoop 集群,运行 Mahout 将需要 30 分钟左右。当我几天前尝试时 this blog极大地帮助了我。

您也可以这样做并节省大量金钱和时间。

我没有谈论使用 Oracle R,只是因为,首先我对 Oracle R 了解不多,但我知道 Hadoop 上的 Mahout 会比其他任何工具更好地帮助您,因为有很多有关如何在短时间内完成它的资源。如果你真的在寻找 Oracle R,这不是答案,否则它肯定是。

关于Oracle R Enterprise (ORE) KMeans 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10840862/

有关Oracle R Enterprise (ORE) KMeans 包的更多相关文章

  1. c++ - 使用 OpenCV 的 Kmeans 聚类中的马哈拉诺比斯距离 - 2

    我已经完成了Kmeans聚类,并使用OpenCVC++API找到了聚类中心。kmeans(data_points,clusterCount,labels,TermCriteria(CV_TERMCRIT_EPS+CV_TERMCRIT_ITER,10,1.0),3,KMEANS_PP_CENTERS,cluster_centers);然后我使用欧几里德距离找到最近的集群,针对所有集群中心的新数据点>.intdistance=find_EucledianDist(new_datapoint,cluster_centers);如何使用马哈拉诺比斯距离而不是欧氏距离?我知道我必须计算协方差矩

  2. Oracle R Enterprise (ORE) KMeans 包 - 2

    我的任务是在SAS服务器上运行K-Means聚类算法,但内存不足。数据集是500G,我知道我可以对其进行采样以适合内存,但如果我想在整个数据上运行模型,OracleREnterprise(ORE)会帮助解决我的问题吗?关于ORE和ORCH的其他相关问题:OracleR包是否包含任何聚类算法?是否有可用的OracleR包列表?如果我在OracleREnterprise中运行kmeans算法(RCRAN包),我是否也会遇到内存问题?BDA中是否有任何R集群包可用,可以在分布式Hadoop集群上运行?谢谢 最佳答案 您最好的选择是在Had

  3. c++ - OpenCV 聚类函数 cv KMeans2() - 数组中的聚类中心类型是什么? - 2

    我正在使用OpenCV库中的函数cvKMeans2()进行聚类。它有可选参数:centers-聚类中心的可选输出数组相同的参数也在函数kmeans()中。我想了解有关集群的信息。但是我没有在数组中找到那个聚类中心是什么类型,所以我无法得到它。感谢您的任何建议! 最佳答案 在OpenCV2.0中,等效的kmeans函数采用CV_32FC1矩阵,但OpenCV2.0对旧的kmeans2函数进行了相当大的升级,因此我无法确定聚类中心数据类型是否仍与OpenCV1.1版本相同. 关于c++-Op

  4. python实现kmeans聚类 - 2

    目录一、先上手撸代码!1、导库、导数据 2、核心算法3、可视化部分二、调库代码!(sklearn) 一、先上手撸代码!1、首先是导入所需要的库和数据importpandasaspdimportnumpyasnpimportrandomimportmathimportmatplotlib.pyplotasplt#这两行代码解决plt中文显示的问题plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falsedf=pd.read_excel('13信科学生成绩.xlsx')data=np.arra

  5. python - scipy.cluster.vq.kmeans2 中的 "Matrix is not positive definite"错误 - 2

    我正在尝试对128维点(图像中兴趣点的描述符)执行kmeans聚类。当我使用scipy.cluster.vq.kmeans2函数时,有时会出现以下错误:File"main.py",line21,inlevel_routinecurrent.centroids,current.labels=cluster.vq.kmeans2(current.descriptors,k)File"/usr/lib/python2.7/dist-packages/scipy/cluster/vq.py",line706,inkmeans2clusters=init(data,k)File"/usr/lib

  6. 机器学习:学习KMeans算法,了解模型创建、使用模型及模型评价 - 2

    机器学习:学习KMeans算法,了解模型创建、使用模型及模型评价作者:i阿极作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪专栏案例:机器学习机器学习:基于逻辑回归对某银行客户违约预测分析机器学习:学习k-近邻(KNN)模型建立、使用和评价机器学习:基于支持向量机(SVM)进行人脸识别预测决策树算法分析天气、周末和促销活动对销量的影响机器学习:线性回归分析女性身高与体重之间的关系机器学习:基于主成分分析(PCA)对数据降维机

  7. Python KMeans 聚类单词 - 2

    我有兴趣对距离度量为Leveshtein的单词列表执行kmeans聚类。1)我知道有很多框架,包括具有kmeans实现的scipy和orange。然而,它们都需要某种向量作为数据,这并不适合我。2)我需要一个好的集群实现。我查看了python聚类并意识到它不会a)返回到每个质心的所有距离的总和,并且b)它没有任何类型的迭代限制或截止以确保聚类的质量。python聚类和daniweb上的聚类算法对我来说并不适用。有人能帮我找到一个好的库吗?Google不是我的friend 最佳答案 是的,我认为我需要的东西没有很好的实现。我有一些疯狂

  8. python - KMeans是否在sklearn中自动归一化特征 - 2

    我想知道KMeans是否会在进行聚类之前自动对特征进行归一化。似乎没有提供输入以请求规范化的选项。 最佳答案 一个区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing用于数据预处理。此外,数据可以通过不同的预处理器进行链式预处理。至于K均值,仅对均值进行归一化通常是不够的。由于K-means对数据中的方差敏感,并且具有较大方差的特征更强调结果,因此人们对不同特征的数据均衡方差进行归一化。所以对于K-means,我建议使用StandardScaler用于数据预处理。不要忘记k-mea

  9. python - KMeans聚类后的聚类点(scikit learn) - 2

    我已经使用sklearn使用Kmeans完成了聚类。虽然它有一种打印质心的方法,但我发现scikit-learn没有一种方法可以打印出每个集群的集群点(或者我到目前为止还没有看到它),这很奇怪。有没有一种巧妙的方法来获取每个集群的集群点?我目前有这个相当笨拙的代码来执行此操作,其中V是数据集:defgetClusterPoints(V,labels):clusters={}forlinrange(0,max(labels)+1):data_points=[]indices=[ifori,xinenumerate(labels)ifx==l]foridxinindices:data_po

  10. python - Sklearn.KMeans() : Get class centroid labels and reference to a dataset - 2

    Sci-Kit学习Kmeans和PCA降维我有一个200万行x7列的数据集,其中包含不同的家庭用电量测量值以及每个测量值的日期。日期,Global_active_power,Global_reactive_power,电压,全局强度,Sub_metering_1,Sub_metering_2,Sub_metering_3我将我的数据集放入pandas数据框中,选择除日期列之外的所有列,然后执行交叉验证拆分。importpandasaspdfromsklearn.cross_validationimporttrain_test_splitdata=pd.read_csv('househo

随机推荐