MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

标签 mongodb apache-spark hadoop pymongo

mongo-hadoop 和 mongo-spark 连接器有什么区别,pymongo 是否只能与 mango-hadoop 一起使用?

pymongo 是否只能与 mongo-hadoop 一起使用?

最佳答案

MongoDB Connector for Hadoop 是一个库,它允许 MongoDB(或其数据格式的备份文件,BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵 active 和性能,并使 MongoDB 中的数据与 Hadoop 生态系统的其他部分(包括以下部分)轻松集成:

  1. pig
  2. Spark
  3. map 化简
  4. Hadoop 流媒体
  5. hive
  6. 水槽

MongoDB Connector for Spark 提供 MongoDB 和 Apache Spark 之间的集成。

通过连接器,您可以访问所有用于 MongoDB 数据集的 Spark 库:用于使用 SQL 进行分析的数据集(受益于自动模式推理)、流式处理、机器学习和图形 API。您还可以将连接器与 Spark Shell 一起使用。

PyMongo 不提供对 PySpark 的任何支持,但 Spark 连接器提供:

https://docs.mongodb.com/spark-connector/master/python-api/

关于MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51257647/

相关文章:

node.js - 如何在 NodeJS 中保存和检索 MongoDB 中的 pdf 文件

javascript - ERR_INVALID_ARG_TYPE错误

java - 在 Spark Streaming 中使用 Java 对有序 Spark 流进行迭代编程?

apache-spark - Spark 图集连接器 : "SparkCatalogEventProcessor-thread" class not found exception

java - 为什么推测执行对 Giraph 没有意义?

ubuntu - Hadoop - EC2 ubuntu 上的环境设置

javascript - 使用 mongoose/mongoDB 创建/更新对象

c++ - 在 MongoDB 中查询字符串的中间部分?

apache-spark - 为推荐引擎建模隐式和显式行为数据

java - 在 Hadoop Map-Reduce 中,是否有任何类在排序之后和分区之前看到整个键列表?