hadoop - MPI 数据挖掘库

标签 hadoop machine-learning cluster-computing mpi data-mining

有没有使用(或可以被)MPI(消息传递接口(interface))的数据挖掘库?我正在寻找类似于 Apache Mahout 但可以轻松集成到 MPI 环境中的东西。

我想使用 MPI 的原因是配置(与 Hadoop 相比)很容易。 还是在数据挖掘场景中使用 MPI 没有意义?

最佳答案

MPI(这是一个概念,而不是软件本身!)没有理由比 Hadoop/Mahout 更容易安装。事实上,后两者目前一团糟,特别是因为它们的 Java 库困惑。 Apache Bigtop 试图使它们更易于安装,一旦您掌握了一些基础知识,就可以了。

但是:

  • 如果您的数据很小(即它可以在单个节点上处理),请不要安装集群解决方案,您需要支付开销。 Hadoop 在单个主机上没有多大意义。使用 Weka,ELKI 、RapidMiner、KNIME 或其他任何东西。
  • 如果您的数据很大,您将希望尽量减少数据传输。而这正是 Hadoop/Mahout 的优势所在,它可以最大限度地减少数据传输。典型的消息传递 API 无法以相同的方式扩展数据密集型操作。

有一些努力,例如 Apache Hama,与 MPI 东西恕我直言非常相似。它基于消息,但是它们是通过屏障同步进行批量处理的。它也可能在发送之前进行一些消息聚合以减少流量。

关于hadoop - MPI 数据挖掘库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12710157/

相关文章:

hadoop - Dataproc Worker节点的磁盘利用率日益提高

hadoop - 为什么在HDFS中包含多个机架的写入会非常昂贵?

hadoop - 如何将 hadoop 节点设置为任务跟踪器而不是数据节点

python - 神经网络 - 类型错误 : can't multiply sequence by non-int of type 'float'

cluster-computing - 蚊子集群的基准?

cluster-computing - etcd 集群 ID 不匹配

Hadoop ResourceManager HA 连接到 ResourceManager at/0.0.0.0 :8032

python - 每个纪元后的自定义回调以记录某些信息

image-processing - 二值分割的结果是图像模糊

erlang - Erlang 是专为在单个多核机器上运行而设计的,还是可以分配进程?