java - 如何将文档 uri 和数据库名称传递给 marklogic spark 连接器?

标签 java apache-spark marklogic connector bigdata

我正在尝试这个 marklogic spark 连接器教程。 https://developer.marklogic.com/blog/marklogic-spark-example 我能够执行此操作。我发现,它默认选择文档数据库。

问题是:

给定的代码如下所示:

JavaPairRDD<DocumentURI, MarkLogicNode> mlRDD = context.newAPIHadoopRDD( hdConf, Configuration DocumentInputFormat.class, InputFormat DocumentURI.class, Key Class MarkLogicNode.class, Value Class );

我想知道如何通过特定的文档 URI 和数据库来获取数据库中的特定文档。 例如; 包含在导入 csv 文件时创建的 xml 文件的文档数据库。下面提到:Marklogic : Multiple XML files created on document on importing a csv. How to get root Document URI path? 有人可以分享有关如何将文档 URI 和数据库名称作为参数传递的示例代码吗?

最佳答案

如果您引用 MarkLogic Connector for Hadoop 的文档,特别是 Input Configuration Properties - 您会发现 mapreduce.marklogic.input.documentselector 属性,它采用 XQuery 路径表达式,允许您从数据库中选择特定文档。

关于java - 如何将文档 uri 和数据库名称传递给 marklogic spark 连接器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36701876/

相关文章:

java - 将 XML 文件读入 hashmap 并创建新对象

java - FirebaseStorage.getReferenceFromUrl(来源未知)

apache-spark - 缓存和持久化有什么区别?

xml - 如何返回 Marklogic 中元素范围索引中的所有元素

marklogic - 使用索引数据计算非结构化文档中的所有唯一单词

java - 如何在 GridLayout (java swing) 中定义/排列按钮位置?

java - 从 Java servlet 调用线程

apache-spark - 如何使用非流文件加入 DStream?

java - Dockerfile授予hdfs权限

marklogic - 超过时间限制,在 Markligic Cts :Search