rdf - 在加载到 apache-jena TDB Triplestore 之前清理 YAGO 文件

标签 rdf jena apache-jena tdb

我想使用 tdbloader 将 YAGO 3 rdf 三元组(来自 http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/ 的 yago3_entire_ttl.7z )放入 apache-jena 三元组存储 (3.1.0)。

apache-jena 提供的用于验证输入的防暴工具给出了 2 种类型的错误(多次出现):

  1. 非法 unicode 转义序列值:\\(0x5C)
  2. IRI 中存在非法字符(代码点 0x7C,“|”)

我的明显想法是替换 '\\' 和 '|'具有通过防暴验证的可接受的字符序列,但我想知道是否还有其他解决方案?

最佳答案

在这里找到解决方案:

Now the .ttl files needs to get some kind of preprocessed, where non-unicode characters are replaced in order for Jena to accept the data. On Linux run sed -i 's/|/-/g' ./* && sed -i 's/\\/-/g' ./* && sed -i 's/–/-/g' ./* from within the directory where your .ttl files are. On Windows, start the Ubuntu Bash, navigate to the respective directory (e.g. /mnt/c/Users/Ferdinand/yago) and do the same command. It will take several minutes. I mean, really several...

https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html

关于rdf - 在加载到 apache-jena TDB Triplestore 之前清理 YAGO 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39664819/

相关文章:

rdf - objectProperty中有多个域和范围?

rdf - 如何在 rdfa lite 节点之间建立关系

java - 如何轻松地将 RDF 三元组与惯用的 Java POJO 业务对象相互转换?

java - jena 如何将默认前缀名称更改为我的前缀名称

java - 从 SPARQL 结果中的文字中删除数据类型

java - org.apache.jena.rdf.model 不存在

java - 我可以将 JSON-LD 转换为 Java 对象吗?

elasticsearch - Jena 使用 ElasticSearch 进行全文搜索问题

converters - 对于 Apache Jena 输入 : Conversion from CSV to RDF Format

rdf - 如何加快阅读速度