dbpedia - 从实时 dbpedia 转储生成不同的数据集

标签 dbpedia

我正在使用 dbpedia download page 提供的不同数据集。并发现它有点过时了。

然后我从 dbpedia live 下载了最新的转储地点。当我提取 6 月 30 日的文件时,我得到了一个巨大的 37GB .nt 文件。

我想从最新的转储中获取不同的数据集(例如下载页面上可用的不同 .nt 文件)。是否有脚本或流程可以做到这一点?

最佳答案

解决方案1:

您可以使用 dbpedia 实时提取器。 https://github.com/dbpedia/extraction-framework .
您需要配置适当的提取器(例如:信息框属性提取器、抽象提取器 .. 等)。它将下载最新的维基百科转储并生成 dbpedia 数据集。

您可能需要进行一些代码更改以仅获取所需的数据。我的一位同事为德国数据集做了这个。为此,您仍然需要大量磁盘空间。

方案二(不知道是不是真的可行):

对数据集所需的属性执行 grep。您需要知道要获取的属性的确切 URI。

例如:获取所有主页:
bzgrep ' http://xmlns.com/foaf/0.1/homepage ' dbpedia_2013_03_04.nt.bz2 >homepages.nt

它将为您提供所有带有主页的 N-三元组。您可以在 rdf 存储中加载它。

关于dbpedia - 从实时 dbpedia 转储生成不同的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11625442/

相关文章:

emacs - 在 emacs-sparql 中为 dbpedia 设置正确的端点

java - 为什么我得到这个 sparql 查询的单个结果?

testing - 如何解决 SPARQL 警告?

iphone - 如何使用 sparql 端点 - 例如 iPhone 应用程序中的 DBPedia

sparql - 获取 DBPedia Live 最新数据

sparql - 给定公司名称列表,如何获取公司名称、网站网址、成立年份、员 worker 数等

sparql - 按天和月过滤 SPARQL 结果

java - 在 Android Studio 中加载 Turtle 文件时出错

SPARQL查询获取特定uri的信息

java - 生成增量 SPARQL 查询