hadoop - 在Hadoop作业中如何从DocumentDB获取数据

我想知道如何控制从DocumentDB提取数据到映射器的方式吗？我的意思是给映射器等提供了几个JSON文档？

最佳答案

当前，文档以700批的批次批量获取，这是一个很好的平均值。
您最多可以设置1000个文档，请问为什么要更改它？

您目前无法将其更改为配置。
如果您自己构建连接器，如果您自己构建，则可以在此处更改
github link

如果您有很好的用例，则可以在github上打开一个问题，要求使用config进行更改的功能。

关于hadoop - 在Hadoop作业中如何从DocumentDB获取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30466298/

上一篇：hadoop - hadoop mapreduce的类路径在哪里？

下一篇：sorting - 排序链接列表

相关文章：

hadoop - 如何在本地文件系统中的文件上运行map/reduce？

asp.net - 如何在Azure中的Documentdb中编写和编译存储过程

hadoop - 用于 Hadoop/Hive 的 XML Serde

hadoop - 让 Hadoop 以 Kerberos 用户身份运行

Hadoop 分布式缓存 : file not found exception

azure - 如何使用 DocumentDB 集合中的纬度和经度查找最近的点？

azure - 通过azure函数更新和删除cosmos db中的文档

java - ClassNotFound:apache.hadoop.io.ImmutableBytesWritable使用Python将Spark与Hbase集成

database - HDFS 与 NoSQL (HBASE)，它是如何工作的？

hadoop - HAMSTER无法在伪分布式模式下运行