我正在尝试这个 marklogic spark 连接器教程。 https://developer.marklogic.com/blog/marklogic-spark-example 我能够执行此操作。我发现,它默认选择文档数据库。
问题是:
给定的代码如下所示:
JavaPairRDD<DocumentURI, MarkLogicNode> mlRDD = context.newAPIHadoopRDD( hdConf, Configuration DocumentInputFormat.class, InputFormat DocumentURI.class, Key Class MarkLogicNode.class, Value Class );
我想知道如何通过特定的文档 URI 和数据库来获取数据库中的特定文档。 例如; 包含在导入 csv 文件时创建的 xml 文件的文档数据库。下面提到:Marklogic : Multiple XML files created on document on importing a csv. How to get root Document URI path? 有人可以分享有关如何将文档 URI 和数据库名称作为参数传递的示例代码吗?
最佳答案
如果您引用 MarkLogic Connector for Hadoop 的文档,特别是 Input Configuration Properties - 您会发现 mapreduce.marklogic.input.documentselector 属性,它采用 XQuery 路径表达式,允许您从数据库中选择特定文档。
关于java - 如何将文档 uri 和数据库名称传递给 marklogic spark 连接器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36701876/