hadoop - MPI 数据挖掘库

有没有使用(或可以被)MPI(消息传递接口(interface))的数据挖掘库？我正在寻找类似于 Apache Mahout 但可以轻松集成到 MPI 环境中的东西。

我想使用 MPI 的原因是配置(与 Hadoop 相比)很容易。还是在数据挖掘场景中使用 MPI 没有意义？

最佳答案

MPI(这是一个概念，而不是软件本身!)没有理由比 Hadoop/Mahout 更容易安装。事实上，后两者目前一团糟，特别是因为它们的 Java 库困惑。 Apache Bigtop 试图使它们更易于安装，一旦您掌握了一些基础知识，就可以了。

但是:

如果您的数据很小(即它可以在单个节点上处理)，请不要安装集群解决方案，您需要支付开销。 Hadoop 在单个主机上没有多大意义。使用 Weka，ELKI 、RapidMiner、KNIME 或其他任何东西。
如果您的数据很大，您将希望尽量减少数据传输。而这正是 Hadoop/Mahout 的优势所在，它可以最大限度地减少数据传输。典型的消息传递 API 无法以相同的方式扩展数据密集型操作。

有一些努力，例如 Apache Hama，与 MPI 东西恕我直言非常相似。它基于消息，但是它们是通过屏障同步进行批量处理的。它也可能在发送之前进行一些消息聚合以减少流量。

关于hadoop - MPI 数据挖掘库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12710157/

相关文章：

hadoop - Dataproc Worker节点的磁盘利用率日益提高