有人指出我正确的方向。我正在寻找对一些非常大且通常非常稀疏的矩阵进行重型操作,并且正在寻找适合该工作的工具。这些矩阵比任何一台机器的RAM都要大得多,因此可能会传播到几台不同的机器上。矩阵经常是稀疏的。我将要执行所有常见的矩阵运算:乘法,转置,逆运算,伪逆运算,SVD,特征值分解等。我担心的关键在于,由于矩阵很可能会散布在多台机器上,因此我将希望最大程度地减少信息共享,因为网络延迟可能是我最大的敌人。我担心map-reduce(la Hadoop)是不正确的选择,因为它的重点是在计算机之间传输大量数据。 This book provides a great intro to map-reduce from an algorithmic perspective.许多矩阵运算类似于巨型JOIN运算,这些运算众所周知是缓慢的或map-reduce的。
所以...我应该去哪里?
最佳答案
本文:Design of Hadoop-based Large-Scale Matrix Computations可以帮助您实现实现准则。 HBase用于存储稀疏表,因此HBase可能是推荐的矩阵存储选项。
关于hadoop - 如何处理巨大的稀疏矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18582686/