mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中?

标签 mongodb apache-spark hadoop hdfs

我的 MongoDB 和 Spark 在 Zeppelin 上运行,它们共享相同的 HDFS。 MongoDB 生成一个存储在同一个 HDFS 中的 .wt 数据库。

我想将 MongoDB 生成的数据库集合从 HDFS 加载到 Spark DataFrame 中。

是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中?还是我需要使用 MongoDB Spark 连接器?

最佳答案

我不建议阅读或修改内部 WiredTiger Storage Engine's *.wt 文件。首先,这些内部文件可能会在没有通知的情况下更改(不是面向公众的 API),而且对这些文件的任何意外修改都可能导致数据库处于无效/损坏状态。

您可以利用 MongoDB Spark Connector将数据从 MongoDB 加载到 Spark。该连接器是为在 MongoDB 和 Apache Spark 之间读取/写入数据而设计、开发和优化的。例如,通过数据库访问数据,客户端可以利用 database indexes优化读取操作。

另见:

关于mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51024541/

相关文章:

hadoop - 查询Hadoop高可用性

Spring 数据 mongodb :Error creating bean

apache-spark - Apache Spark 统计数据集合..

mongodb - 无法连接到远程服务器上的 mongo

hadoop - 如何将大型 xml 文件解压到一个 HDFS 目录中

apache-spark - Spark groupBy vs repartition 加 mapPartitions

linux - 安装 devstack 时出错

linux - 如何在 Arch Linux 上安装 protobuf 2.5 以使用 maven 3.3.1 编译 hadoop 2.6.0?

javascript - Node 大数据处理

node.js - Mongodb 自动为新集合创建索引