algorithm - 分布式互相关矩阵计算

标签 algorithm apache-spark distributed-computing distributed cross-correlation

如何可能以分布式方式计算大型(>10TB)数据集的 PIL 逊互相关矩阵？任何有效的分布式算法建议将不胜感激。

更新: 我看了apache spark mlib相关的实现

Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

但对我来说，所有计算似乎都发生在一个节点上，并不是真正意义上的分布式。

请在这里放一些光。我还尝试在 3 节点 spark 集群上执行它，下面是屏幕截图:

正如您从第二张图片中看到的那样，数据在一个节点上提取，然后进行计算。我就在这里吗？

最佳答案

首先，看看 this看看事情是否进展顺利。然后您可以引用这些实现中的任何一个:MPI/OpenMP:Agomezl或 Meismyles , MapReduce: Vangjee或 Seawolf42 .阅读 this 也很有趣在你继续之前。另一方面，James's thesis如果您有兴趣计算对异常值具有鲁棒性的相关性，可以提供一些指导。

关于algorithm - 分布式互相关矩阵计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42304059/

上一篇：algorithm - 预测短语而不仅仅是下一个单词

下一篇：algorithm - 在 O(n) 中提出一个算法

相关文章：

c++ - 在位流中扫描位模式的最快方法

c# - 通过点集合中的所有其他点，两点之间的最短路线

algorithm - 找到网络上两个有序集合的最小共享值

image - Spark如何高效读取100K图像？

java - Spark 使用不同的 TTL 写入 Cassandra

c++ - OpenCV - 如何在我的 LAN 中的单独主机中处理视频的每一帧？

确定最佳团队和阵型的算法？

algorithm - 如何对不同文件中的多个 GB 数据进行排序？

python - spark.sql() 和 spark.read.format ("jdbc").option ("query", "") 有什么区别？

apache-spark - 如何删除或覆盖添加到 pyspark 作业的文件？