java - 如何将文档 uri 和数据库名称传递给 marklogic spark 连接器？

标签 java apache-spark marklogic connector bigdata

我正在尝试这个 marklogic spark 连接器教程。 https://developer.marklogic.com/blog/marklogic-spark-example 我能够执行此操作。我发现，它默认选择文档数据库。

问题是:

给定的代码如下所示:

JavaPairRDD<DocumentURI, MarkLogicNode> mlRDD = context.newAPIHadoopRDD( hdConf, Configuration DocumentInputFormat.class, InputFormat DocumentURI.class, Key Class MarkLogicNode.class, Value Class );

我想知道如何通过特定的文档 URI 和数据库来获取数据库中的特定文档。例如; 包含在导入 csv 文件时创建的 xml 文件的文档数据库。下面提到:Marklogic : Multiple XML files created on document on importing a csv. How to get root Document URI path? 有人可以分享有关如何将文档 URI 和数据库名称作为参数传递的示例代码吗？

最佳答案

如果您引用 MarkLogic Connector for Hadoop 的文档，特别是 Input Configuration Properties - 您会发现 mapreduce.marklogic.input.documentselector 属性，它采用 XQuery 路径表达式，允许您从数据库中选择特定文档。

关于java - 如何将文档 uri 和数据库名称传递给 marklogic spark 连接器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36701876/

上一篇：java - 在 Spring Boot 中启用 Http 缓存

下一篇：java - 如何获取android assets的绝对路径

相关文章：

java - 将 XML 文件读入 hashmap 并创建新对象

java - FirebaseStorage.getReferenceFromUrl(来源未知)

apache-spark - 缓存和持久化有什么区别？

xml - 如何返回 Marklogic 中元素范围索引中的所有元素

marklogic - 使用索引数据计算非结构化文档中的所有唯一单词

java - 如何在 GridLayout (java swing) 中定义/排列按钮位置？

java - 从 Java servlet 调用线程

apache-spark - 如何使用非流文件加入 DStream？

java - Dockerfile授予hdfs权限

marklogic - 超过时间限制，在 Markligic Cts :Search