我想使用 MLCP 将一些 RAW 数据导入 marklogic,但数据的形式如下
Informatio#data1 #data2#data3#data4 #data5
Informatio#data10 #data6#data7#data8 #data9
使用 MLCP 将此数据发送到 ML 9 的挑战是
- 首先,第一行中没有列名称,通常在使用 mlcp 时,第一行将成为以下各列的列名称。有什么方法可以将列名称传递到 marklogic 中,而不是将列名称放在第一行中。
- 第二,因为第一列是相同的值。生成 URI 时,将采用第一个列名称,因此摄取到 ML 中的数据会被覆盖。在我的 csv 文件中,没有唯一的列值,因此我不知道如何为文档生成唯一的 URI。
感谢任何帮助
谢谢
最佳答案
- MLCP 命令要求分隔文本文件以标题行开头。使用您最喜欢的脚本语言将其添加为预处理的一部分。
- 命令行开关
-delimited_uri_id
可以更改为 ID 生成的另一列。
其他可能有用的有趣想法:
- 让 MarkLogic 创建唯一 ID(另一个命令行开关)
- 对输入使用转换来生成更具体的 URI - 可能来自复合键。
引用:https://docs.marklogic.com/6.0/guide/ingestion/content-pump#id_70366
关于csv - 使用 MLCP 将原始数据引入 Marklogic 的挑战,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48012201/