MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

mongo-hadoop 和 mongo-spark 连接器有什么区别，pymongo 是否只能与 mango-hadoop 一起使用？

pymongo 是否只能与 mongo-hadoop 一起使用？

最佳答案

MongoDB Connector for Hadoop 是一个库，它允许 MongoDB(或其数据格式的备份文件，BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵 active 和性能，并使 MongoDB 中的数据与 Hadoop 生态系统的其他部分(包括以下部分)轻松集成:

pig
Spark
map 化简
Hadoop 流媒体
hive
水槽

MongoDB Connector for Spark 提供 MongoDB 和 Apache Spark 之间的集成。

通过连接器，您可以访问所有用于 MongoDB 数据集的 Spark 库:用于使用 SQL 进行分析的数据集(受益于自动模式推理)、流式处理、机器学习和图形 API。您还可以将连接器与 Spark Shell 一起使用。

PyMongo 不提供对 PySpark 的任何支持，但 Spark 连接器提供:

https://docs.mongodb.com/spark-connector/master/python-api/

关于MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51257647/

上一篇：apache - 控制 HDFS 复制、映射器数量和 reducer 识别

下一篇：apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/，Google Dataproc 上的 Spark 失败

javascript - ERR_INVALID_ARG_TYPE错误

java - 在 Spark Streaming 中使用 Java 对有序 Spark 流进行迭代编程？

apache-spark - Spark 图集连接器 : "SparkCatalogEventProcessor-thread" class not found exception

java - 为什么推测执行对 Giraph 没有意义？

ubuntu - Hadoop - EC2 ubuntu 上的环境设置

javascript - 使用 mongoose/mongoDB 创建/更新对象

c++ - 在 MongoDB 中查询字符串的中间部分？

apache-spark - 为推荐引擎建模隐式和显式行为数据

java - 在 Hadoop Map-Reduce 中，是否有任何类在排序之后和分区之前看到整个键列表？