csv - 使用 MLCP 将原始数据引入 Marklogic 的挑战

标签 csv marklogic mlcp marklogic-9

我想使用 MLCP 将一些 RAW 数据导入 marklogic,但数据的形式如下

Informatio#data1      #data2#data3#data4     #data5   
Informatio#data10      #data6#data7#data8     #data9  

使用 MLCP 将此数据发送到 ML 9 的挑战是

  • 首先,第一行中没有列名称,通常在使用 mlcp 时,第一行将成为以下各列的列名称。有什么方法可以将列名称传递到 marklogic 中,而不是将列名称放在第一行中。
  • 第二,因为第一列是相同的值。生成 URI 时,将采用第一个列名称,因此摄取到 ML 中的数据会被覆盖。在我的 csv 文件中,没有唯一的列值,因此我不知道如何为文档生成唯一的 URI。

感谢任何帮助

谢谢

最佳答案

  1. MLCP 命令要求分隔文本文件以标题行开头。使用您最喜欢的脚本语言将其添加为预处理的一部分。
  2. 命令行开关 -delimited_uri_id 可以更改为 ID 生成的另一列。

其他可能有用的有趣想法:

  • 让 MarkLogic 创建唯一 ID(另一个命令行开关)
  • 对输入使用转换来生成更具体的 URI - 可能来自复合键。

引用:https://docs.marklogic.com/6.0/guide/ingestion/content-pump#id_70366

关于csv - 使用 MLCP 将原始数据引入 Marklogic 的挑战,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48012201/

相关文章:

javascript - 在 marklogic 中找不到来自不同数据库的模块

user-interface - 带 GUI 的 MarkLogic 内容泵 (MLCP)

python - 在 Python 中将 CSV 文件的列转置为行

marklogic - 从查询控制台中的模块数据库导入模块

python - 使用Python3——需要为pandas的流输出生成压缩的csv文件

javascript - 删除多个文档

xml - 在 MLCP 中作为 -query_filter 传递时无效值运算符 '<'(小于)符号

MarkLogic:mlcp 需要 XDBC 服务器吗?

python - CSV 到 Python 中的列表

python - 将 csv 文件加载到 numpy 并按名称访问列