mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中？

我的 MongoDB 和 Spark 在 Zeppelin 上运行，它们共享相同的 HDFS。 MongoDB 生成一个存储在同一个 HDFS 中的 .wt 数据库。

我想将 MongoDB 生成的数据库集合从 HDFS 加载到 Spark DataFrame 中。

是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中？还是我需要使用 MongoDB Spark 连接器？

最佳答案

我不建议阅读或修改内部 WiredTiger Storage Engine's *.wt 文件。首先，这些内部文件可能会在没有通知的情况下更改(不是面向公众的 API)，而且对这些文件的任何意外修改都可能导致数据库处于无效/损坏状态。

您可以利用 MongoDB Spark Connector将数据从 MongoDB 加载到 Spark。该连接器是为在 MongoDB 和 Apache Spark 之间读取/写入数据而设计、开发和优化的。例如，通过数据库访问数据，客户端可以利用 database indexes优化读取操作。

另见:

关于mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51024541/

相关文章：

hadoop - 查询Hadoop高可用性