我最近开始学习 R,而不是开始使用 Matlab 编写代码,主要是因为它是开源的。我目前在数据挖掘和机器学习领域工作。我发现了许多用 R 实现的机器学习算法,并且我仍在探索用 R 实现的不同包。
我有一个简短的问题:您如何比较 R 和 Matlab 在数据挖掘应用方面的应用、它的受欢迎程度、优缺点、行业和学术接受度等?你会选择哪一个,为什么?
我根据各种指标对 Matlab 与 R 进行了各种比较,但我特别想知道它在数据挖掘和 ML 中的适用性。 由于这两种语言对我来说都是全新的,我只是想知道 R 是否是一个不错的选择。
我很感激任何类型的建议。
最佳答案
在过去三年左右的时间里,我每天都在使用 R,而且每天使用的大部分时间都花在了机器学习/数据挖掘问题上。
我在大学期间是 Matlab 的独家用户;当时我以为是 一套优秀的工具/平台。我相信今天也是。
神经网络工具箱、优化工具箱、统计工具箱、 和 Curve Fitting Toolbox 都是非常理想的(如果不是必需的话) 对于使用 MATLAB 进行 ML/数据挖掘工作的人,但他们都分开 基本 MATLAB 环境——换句话说,它们必须单独购买。
我的 学习 R 机器学习/数据挖掘的前 5 个列表:
这指的是几件事:首先,一组以 arules 开头的 R 包(可从 CRAN 获得);您可以在 Project Homepage 上找到完整列表(arules、aruluesViz 等) .其次,所有这些包都基于称为基于市场的分析 或关联规则 的数据挖掘技术。在许多方面,这一系列算法是数据挖掘的本质——详尽遍历大型交易数据库,并在这些数据库中的字段(变量或特征)之间找到高于平均水平的关联或相关性。实际上,您将它们连接到数据源并让它们运行一整夜。上述集合中的中央 R 包称为 arules;在 arules 的 CRAN Package 页面上,您会找到一些关于 arules 包和关联规则技术的优秀辅助资源(vignettes 在 R 的词典中)的链接.
- 标准引用,T he Elements of Statistical Learning 由 Hastie 等人撰写。
这本书的最新版本以数字形式提供,免费。同样,在本书的网站(链接到上面)上有 ESL 中使用的所有数据集,可以免费下载。 (顺便说一句,我有免费的数字版;我还从 BN.com 购买了精装版;数字版中的所有彩色图都在精装版中复制。)ESL 包含对至少一个范例的详尽介绍来自大多数主要
ML 规则——例如,神经网络、SVM、KNN;无监督
技术(LDA、PCA、MDS、SOM、聚类)、多种回归、CART、
贝叶斯技术,以及模型聚合技术(Boosting、Bagging)
和模型调整(正则化)。最后,从 CRAN 获取本书随附的 R 包(这将省去必须下载并输入数据集的麻烦)。
- CRAN 任务 View :机器学习
提供的 +3,500 个套餐
对于 R,按域分为大约 30 个包系列或 'Task Views '.机器学习
是这些家庭之一。机器学习任务 View 包含大约 50 个左右
包裹。其中一些软件包是核心发行版的一部分,包括 e1071
(一个庞大的 ML 包,其中包含相当多的工作代码
通常的 ML 类别。)
特别关注带有 Predictive Analytics 标签的帖子
- ML in R tutorial 由 Josh Reich 的幻灯片和 R 代码组成
彻底研究代码本身就可以很好地介绍 R 中的机器学习。
最后一个资源,我认为非常好,但没有进入前 5 名:
发表在博客 A Beautiful WWW
关于r - 比较 R 与 Matlab 的数据挖掘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4811995/