mongo-hadoop 和 mongo-spark 连接器有什么区别,pymongo 是否只能与 mango-hadoop 一起使用?
pymongo 是否只能与 mongo-hadoop 一起使用?
最佳答案
MongoDB Connector for Hadoop 是一个库,它允许 MongoDB(或其数据格式的备份文件,BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵 active 和性能,并使 MongoDB 中的数据与 Hadoop 生态系统的其他部分(包括以下部分)轻松集成:
- pig
- Spark
- map 化简
- Hadoop 流媒体
- hive
- 水槽
MongoDB Connector for Spark 提供 MongoDB 和 Apache Spark 之间的集成。
通过连接器,您可以访问所有用于 MongoDB 数据集的 Spark 库:用于使用 SQL 进行分析的数据集(受益于自动模式推理)、流式处理、机器学习和图形 API。您还可以将连接器与 Spark Shell 一起使用。
PyMongo 不提供对 PySpark 的任何支持,但 Spark 连接器提供:
关于MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51257647/