algorithm - 分布式互相关矩阵计算

标签 algorithm apache-spark distributed-computing distributed cross-correlation

如何可能以分布式方式计算大型(>10TB)数据集的 PIL 逊互相关矩阵?任何有效的分布式算法建议将不胜感激。

更新: 我看了apache spark mlib相关的实现

Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

但对我来说,所有计算似乎都发生在一个节点上,并不是真正意义上的分布式。

请在这里放一些光。我还尝试在 3 节点 spark 集群上执行它,下面是屏幕截图:

Entire Computation timeline One the task details

正如您从第二张图片中看到的那样,数据在一个节点上提取,然后进行计算。我就在这里吗?

最佳答案

首先,看看 this看看事情是否进展顺利。然后您可以引用这些实现中的任何一个:MPI/OpenMP:AgomezlMeismyles , MapReduce: VangjeeSeawolf42 .阅读 this 也很有趣在你继续之前。另一方面,James's thesis如果您有兴趣计算对异常值具有鲁棒性的相关性,可以提供一些指导。

关于algorithm - 分布式互相关矩阵计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42304059/

相关文章:

c++ - 在位流中扫描位模式的最快方法

c# - 通过点集合中的所有其他点,两点之间的最短路线

algorithm - 找到网络上两个有序集合的最小共享值

image - Spark如何高效读取100K图像?

java - Spark 使用不同的 TTL 写入 Cassandra

c++ - OpenCV - 如何在我的 LAN 中的单独主机中处理视频的每一帧?

确定最佳团队和阵型的算法?

algorithm - 如何对不同文件中的多个 GB 数据进行排序?

python - spark.sql() 和 spark.read.format ("jdbc").option ("query", "") 有什么区别?

apache-spark - 如何删除或覆盖添加到 pyspark 作业的文件?