如果我想使用太大而无法放入内存的矩阵来进行大量数据拟合,我会使用哪些工具/库?具体来说,如果我在通常使用 php+mysql 的网站上运行数据,您会如何建议制作一个可以在合理时间内运行大型矩阵运算的离线进程?
可能的答案可能是“你应该使用这种语言和这些分布式矩阵算法来在许多机器上映射减少”。我想 php 不是最好的语言,所以流程更像是一些其他离线进程从数据库中读取数据,进行学习,并以 php 以后可以使用的格式存储规则(因为网站的其他部分是用 php 构建的)。
不确定在这里问这个问题是否合适(本来会在机器学习 SE 中问这个问题,但它从未退出测试版)。
最佳答案
如果要处理大量数据,需要做很多事情。 处理 web 规模数据的一种方法是使用 Map/Reduce,也许你可以看看 Apache Mahout这是一个可扩展的机器学习包,包含
- 协同过滤
- 基于用户和项目的推荐器
- K-Means,模糊 K-Means 聚类
- 还有更多。
具体你想做什么可能在一些开源项目中可用,例如 Weka但您可能需要迁移/创建代码来完成分发工作。
希望上面的内容能给你一个想法。
关于php - 基于网络数据的大型机器学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10347625/