r - R 中的无监督学习?矩阵分类 - 什么是正确的包?

标签 r machine-learning cluster-analysis unsupervised-learning

最近看了很多斯坦福的爆笑Open Classroom's视频讲座。特别是关于无监督机器学习的部分引起了我的注意。不幸的是,它停止了,因为它可能会变得更有趣。

基本上,我希望通过无监督算法对离散矩阵进行分类。这些矩阵仅包含相同范围的离散值。假设我有 1000 个 20x15 矩阵,其值范围为 1-3。我刚刚开始阅读文献,我觉得图像分类要复杂得多(颜色直方图),而我的案例只是对那里所做的事情的简化。

我还查看了Machine LearningCluster Cran Task Views 但不知道从哪里开始举一个实际的例子。

所以我的问题是:哪个包/算法是开始尝试和解决 R 中的问题的好选择?

编辑: 我意识到我可能不精确:我的矩阵包含离散选择数据 - 所以平均聚类可能(!)不是正确的想法。我确实理解你所说的关于向量和观察的内容,但我希望有一些接受矩阵或 data.frames 的函数,因为随着时间的推移我有一些观察。

编辑2: 我意识到专注于分类数据的无监督分类的包/函数、介绍是现在对我最有帮助的。

最佳答案

... classify discrete matrices by an unsupervised algorithm

您的意思一定是对它们进行聚类。分类通常由监督算法完成。

I feel that image classification is way more complex (color histograms) and that my case is rather a simplification of what is done there

如果不知道矩阵代表什么,就很难判断您需要哪种算法。但起点可能是展平 20*15 矩阵以生成长度为 300 的向量;这样的向量的每个元素将是一个作为聚类基础的特征(或变量)。这是 ML 包(包括您链接到的 Cluster 包)必须工作的方式:“在矩阵或数据框的情况下,每一行对应一个观察,并且 每列对应一个变量。”

关于r - R 中的无监督学习?矩阵分类 - 什么是正确的包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7922515/

相关文章:

r - 将数据框字符串列拆分为多列

R - 根据条件在数据框中创建新列

machine-learning - 这是过度拟合的例子吗?

tensorflow - 语音识别(使用ML?),而不是语音识别

algorithm - 如何使用共享元素对列表进行聚类

r - 如何在 Quarto 的 docx 输出中自定义页面大小,以使 R 中的各个页面具有不同的尺寸?

r - 嵌套浏览器调用——仅退出单个上下文

python - ValueError : Error when checking model target: expected convolution2d_2 to have shape (None, 26, 26, 64) 但得到形状为 (250, 227, 227, 1) 的数组

python - 如何按距离对地理点列表进行聚类?

algorithm - K-Medoid (PAM) 算法的缺点