hadoop - 如何处理巨大的稀疏矩阵？

标签 hadoop matrix distributed-computing sparse-matrix

有人指出我正确的方向。我正在寻找对一些非常大且通常非常稀疏的矩阵进行重型操作，并且正在寻找适合该工作的工具。这些矩阵比任何一台机器的RAM都要大得多，因此可能会传播到几台不同的机器上。矩阵经常是稀疏的。我将要执行所有常见的矩阵运算:乘法，转置，逆运算，伪逆运算，SVD，特征值分解等。我担心的关键在于，由于矩阵很可能会散布在多台机器上，因此我将希望最大程度地减少信息共享，因为网络延迟可能是我最大的敌人。我担心map-reduce(la Hadoop)是不正确的选择，因为它的重点是在计算机之间传输大量数据。 This book provides a great intro to map-reduce from an algorithmic perspective.许多矩阵运算类似于巨型JOIN运算，这些运算众所周知是缓慢的或map-reduce的。

所以...我应该去哪里？

最佳答案

本文:Design of Hadoop-based Large-Scale Matrix Computations可以帮助您实现实现准则。 HBase用于存储稀疏表，因此HBase可能是推荐的矩阵存储选项。

关于hadoop - 如何处理巨大的稀疏矩阵？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18582686/

上一篇：java - 在Eclipse Juno中运行MapReduce程序时出错

下一篇：multithreading - 将大量数据数据从HDFS移至HDFS

相关文章：

c - 多CPU作业的用户时间增加

c++ - 向节点有效发送请求的算法

sql - 即使满足条件，NULL值也不会作为查询的一部分出现

algorithm - 在大型稀疏矩阵中查找大型非稀疏子矩阵

matlab - MATLAB 中的矩阵到对角矩阵

opengl - 给定旋转后的法向量，求平面的 OpenGL 旋转矩阵

python - 我有兴趣反驳 python 中的一些图论猜想，最有效的库/服务器设置是什么？

java - 致命[主要] org.apache.hadoop.mapreduce.v2.app.MRAppMaster:启动MRAppMaster java.lang.NoClassDefFoundError时出错

java - 为什么hadoop 1.0.3中的reducer非常慢

python - Pydoop vs Mrjob在Hadoop上进行图像处理