rdf - 如何从 Freebase 获取所有电影 ID 的列表?

标签 rdf freebase mql

在几年前我从事的一个项目中,我正在从 Freebase 构建一组关于电影的数据。一个简单的 shell 脚本下载了“film.tsv”文件(来自 http://download.freebase.com/datadumps/latest/browse/film/film.tsv)。然后我使用该文件中的“id”字段为每部电影构建必要的 MQL 请求(检索我感兴趣的其他属性,例如 Actor 、流派)。

今天看了开发人员指南后,我意识到 Freebase 已经有了很大的进步,而且我发现我之前使用的转储文件不再可用。我还看到转储文件格式现在是 RDF,据我所知,转储文件现在只能作为单个 22GB 存档使用。

如果可能的话,我希望每次重建数据集时都避免下载 22G 文件,这样是否可以再检索单个转储文件,例如像film.tsv文件?

如果没有,是否有其他方法可以获得电影 ID 的完整列表?

最佳答案

目前没有计划更换 film.tsv。您可以从 RDF dump 获取当前的电影 ID 列表。像这样:

zgrep $'\ttype\.object\.type\tfilm\.film' freebase-rdf.gz

然后,当您需要更新列表时,您可以查询 MQL Read API有关自上次更新以来添加的新电影列表:
[{
  "type": "/film/film",
  "id": null,
  "name": null,
  "timestamp": null,
  "timestamp>=": "2013-12",
  "sort": "-timestamp"
}]

由于 API 一次返回 200 个结果,因此您需要使用 a cursor获取完整的结果列表。

关于rdf - 如何从 Freebase 获取所有电影 ID 的列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20353337/

相关文章:

wikipedia - Freebase/DBpedia/wikidata.org -- 差异

javascript - 如何在 MQL 中返回空复合对象

android - 从 Android 运行 MQL Freebase 查询的可靠且简单的方法

url - 是否有用于识别 IP 地址和域名的 URI 架构?

java - 耶拿文本 : working example for querying RDF files

freebase - Freebase 是否使用问答 (QA) 作为知识库?

youtube - YouTube Data API v3:无效的搜索过滤器和/或某些Freebase主题的限制

java - 如何在Java中根据主题划分RDF三元组

rdf - 我如何在 OWL 中声明属性必须具有一组有序值?