hadoop - 如何处理巨大的稀疏矩阵?

标签 hadoop matrix distributed-computing sparse-matrix

有人指出我正确的方向。我正在寻找对一些非常大且通常非常稀疏的矩阵进行重型操作,并且正在寻找适合该工作的工具。这些矩阵比任何一台机器的RAM都要大得多,因此可能会传播到几台不同的机器上。矩阵经常是稀疏的。我将要执行所有常见的矩阵运算:乘法,转置,逆运算,伪逆运算,SVD,特征值分解等。我担心的关键在于,由于矩阵很可能会散布在多台机器上,因此我将希望最大程度地减少信息共享,因为网络延迟可能是我最大的敌人。我担心map-reduce(la Hadoop)是不正确的选择,因为它的重点是在计算机之间传输大量数据。 This book provides a great intro to map-reduce from an algorithmic perspective.许多矩阵运算类似于巨型JOIN运算,这些运算众所周知是缓慢的或map-reduce的。

所以...我应该去哪里?

最佳答案

本文:Design of Hadoop-based Large-Scale Matrix Computations可以帮助您实现实现准则。 HBase用于存储稀疏表,因此HBase可能是推荐的矩阵存储选项。

关于hadoop - 如何处理巨大的稀疏矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18582686/

相关文章:

c - 多CPU作业的用户时间增加

c++ - 向节点有效发送请求的算法

sql - 即使满足条件,NULL值也不会作为查询的一部分出现

algorithm - 在大型稀疏矩阵中查找大型非稀疏子矩阵

matlab - MATLAB 中的矩阵到对角矩阵

opengl - 给定旋转后的法向量,求平面的 OpenGL 旋转矩阵

python - 我有兴趣反驳 python 中的一些图论猜想,最有效的库/服务器设置是什么?

java - 致命[主要] org.apache.hadoop.mapreduce.v2.app.MRAppMaster:启动MRAppMaster java.lang.NoClassDefFoundError时出错

java - 为什么hadoop 1.0.3中的reducer非常慢

python - Pydoop vs Mrjob在Hadoop上进行图像处理