r - 比较 R 与 Matlab 的数据挖掘

标签 r matlab machine-learning data-mining language-comparisons

我最近开始学习 R,而不是开始使用 Matlab 编写代码,主要是因为它是开源的。我目前在数据挖掘和机器学习领域工作。我发现了许多用 R 实现的机器学习算法,并且我仍在探索用 R 实现的不同包。

我有一个简短的问题:您如何比较 R 和 Matlab 在数据挖掘应用方面的应用、它的受欢迎程度、优缺点、行业和学术接受度等?你会选择哪一个,为什么?

我根据各种指标对 Matlab 与 R 进行了各种比较,但我特别想知道它在数据挖掘和 ML 中的适用性。 由于这两种语言对我来说都是全新的,我只是想知道 R 是否是一个不错的选择。

我很感激任何类型的建议。

最佳答案

在过去三年左右的时间里,我每天都在使用 R,而且每天使用的大部分时间都花在了机器学习/数据挖掘问题上。

我在大学期间是 Matlab 的独家用户;当时我以为是 一套优秀的工具/平台。我相信今天也是。

神经网络工具箱、优化工具箱、统计工具箱、 和 Curve Fitting Toolbox 都是非常理想的(如果不是必需的话) 对于使用 MATLAB 进行 ML/数据挖掘工作的人,但他们都分开 基本 MATLAB 环境——换句话说,它们必须单独购买。

我的 学习 R 机器学习/数据挖掘的前 5 个列表:

这指的是几件事:首先,一组以 arules 开头的 R 包(可从 CRAN 获得);您可以在 Project Homepage 上找到完整列表(arules、aruluesViz 等) .其次,所有这些包都基于称为基于市场的分析关联规则 的数据挖掘技术。在许多方面,这一系列算法是数据挖掘的本质——详尽遍历大型交易数据库,并在这些数据库中的字段(变量或特征)之间找到高于平均水平的关联或相关性。实际上,您将它们连接到数据源并让它们运行一整夜。上述集合中的中央 R 包称为 arules;在 arules 的 CRAN Package 页面上,您会找到一些关于 arules 包和关联规则技术的优秀辅助资源(vignettes 在 R 的词典中)的链接.

这本书的最新版本以数字形式提供,免费。同样,在本书的网站(链接到上面)上有 ESL 中使用的所有数据集,可以免费下载。 (顺便说一句,我有免费的数字版;我还从 BN.com 购买了精装版;数字版中的所有彩色图都在精装版中复制。)ESL 包含对至少一个范例的详尽介绍来自大多数主要 ML 规则——例如,神经网络、SVM、KNN;无监督 技术(LDA、PCA、MDS、SOM、聚类)、多种回归、CART、 贝叶斯技术,以及模型聚合技术(Boosting、Bagging) 和模型调整(正则化)。最后,从 CRAN 获取本书随附的 R 包(这将省去必须下载并输入数据集的麻烦)。

  • CRAN 任务 View :机器学习

提供的 +3,500 个套餐 对于 R,按域分为大约 30 个包系列或 'Task Views '.机器学习 是这些家庭之一。机器学习任务 View 包含大约 50 个左右 包裹。其中一些软件包是核心发行版的一部分,包括 e1071 (一个庞大的 ML 包,其中包含相当多的工作代码 通常的 ML 类别。)

特别关注带有 Predictive Analytics 标签的帖子

彻底研究代码本身就可以很好地介绍 R 中的机器学习。

最后一个资源,我认为非常好,但没有进入前 5 名:

发表在博客 A Beautiful WWW

关于r - 比较 R 与 Matlab 的数据挖掘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4811995/

相关文章:

r - 根据另一个变量选择一个因素的前十个水平

r - 比较拆分和合并两个数据框

matlab - 在 MATLAB 中创建角度(方位角)数据的半圆图

python - 训练模型来预测简单的线性函数

python - 如何在 Scikit 中构建线性加性模型?

python - torch 就地操作以节省内存(softmax)

r - GGplot 为点添加数据标签

matlab - 如何使用 matlab 从 FAR/FRR 值计算和绘制等错误率 (EER)

matlab - matlab中的多个矩阵没有递归

r - 使用 R 进行复杂表分析