hadoop - 在Hadoop作业中如何从DocumentDB获取数据

标签 hadoop mapreduce azure-cosmosdb

我想知道如何控制从DocumentDB提取数据到映射器的方式吗?我的意思是给映射器等提供了几个JSON文档?

最佳答案

当前,文档以700批的批次批量获取,这是一个很好的平均值。
您最多可以设置1000个文档,请问为什么要更改它?

您目前无法将其更改为配置。
如果您自己构建连接器,如果您自己构建,则可以在此处更改
github link

如果您有很好的用例,则可以在github上打开一个问题,要求使用config进行更改的功能。

关于hadoop - 在Hadoop作业中如何从DocumentDB获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30466298/

相关文章:

hadoop - 如何在本地文件系统中的文件上运行map/reduce?

asp.net - 如何在Azure中的Documentdb中编写和编译存储过程

hadoop - 用于 Hadoop/Hive 的 XML Serde

hadoop - 让 Hadoop 以 Kerberos 用户身份运行

Hadoop 分布式缓存 : file not found exception

azure - 如何使用 DocumentDB 集合中的纬度和经度查找最近的点?

azure - 通过azure函数更新和删除cosmos db中的文档

java - ClassNotFound:apache.hadoop.io.ImmutableBytesWritable使用Python将Spark与Hbase集成

database - HDFS 与 NoSQL (HBASE),它是如何工作的?

hadoop - HAMSTER无法在伪分布式模式下运行