wikipedia - 维基数据有多少是有机的(用户输入的,独立于维基百科)?

标签 wikipedia wikidata

我试图弄清楚维基数据的条目有多少是“有机的”,即数据是由人类输入且独立于维基百科的。

  1. Wikidata introduction page说“自动化机器人也会将数据输入维基数据。”是否有关于机器人输入了多少维基数据数据的统计数据?

  2. 我知道维基数据是一个独立于维基百科的组织。是否有关于有多少维基数据条目源自维基百科的统计数据? (例如,一个人阅读维基百科文章,找到维基数据中没有的事实,然后使用该维基百科文章作为引用将该事实输入维基数据。)

我熟悉 Wikidata 的 SPARQL API,可以查找解决这些问题可能需要的任何内容。

最佳答案

当您检查"recent changes"时(并停用“仅限人类”过滤器),或任何特定页面/项目的历史记录,机器人都标有一个小“b”,它们的名字也以“...Bot”结尾。

如果仅通过“语句数量”来衡量,机器人可能会添加大部分数据。如果按重要性/观看次数来衡量,人类可能领先。

你没有提到的一个群体,但可能很重要,是“介于两者之间”:使用 OpenRefine 的人或 QuickStatements 半手动匹配(“协调”)某些外部数据集并将其导入。例如,计算生物学界确实使用维基数据作为这种形式的中心。

从维基百科导入提供了很多结构,因为每个页面都有其维基数据项(而且只有一个)。但大部分数据来自其他公共(public)数据集。

出于我无法理解的原因,一些维基百科和维基数据之间的关系并不总是完美的。由于每个项目在此类问题上都有很大的自由度,因此有些项目不再使用维基数据作为存储结构化信息的后端,而是开始做自己的事情。当发生这种情况时,要么有人继续至少在一个方向上同步它。或者数据开始出现分歧。例如,最近,英语维基百科决定使用一些本土方法来管理短页面描述。

(编辑,回答评论中的问题:)机器人数据的质量控制通常与其他编辑相同,除了机器人编辑(以及类似的编辑,例如使用 QuickStatement 的编辑)被标记为这样。

最近页面的概述会引起人们对任何变化的注意,将项目添加到您的个人监视列表的功能也是如此。还有一个人工智能系统(与 en.wikipedia.org 上的相同)可以预测恶意和低质量的编辑,这些编辑会被标记为此类,在更改中突出显示,并在过滤器中可用。同一用户的相关编辑也会合并到“编辑组”中,并且 this page显示最近的。属性(property)也有许多限制,例如要求出生和死亡日期必须是过去的日期,要求“公民”属性(property)的对象必须是人,等等。违反这些限制的行为会在项目页面以及各种列表中标有 (!)。所以属性"awards received"需要 object to be a person/creative work/organisation/etc.约8000起违规事件为listed here ,然后单击其中一个显示 a case where a person is missing声明“是一个:人”。

关于wikipedia - 维基数据有多少是有机的(用户输入的,独立于维基百科)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63367956/

相关文章:

python - 将(所有)维基百科数据加载到 mongodb 中?

sparql - 维基数据:如何通过 SPARQL 查询 "language"(P1448) 的 "official name"?

sparql - 使用SPARQL,如何通过标识符选择节点,特别是在wikidata中?

维基百科 : Escape Brackets inside of Link

api - 维基百科 API 返回排序数据而不是随机数据

sparql - 使用 DBPedia 加载所有人员以及一些数据

sparql - 检索在任意日期之前/之后最后更新的属性

python - 获取维基百科文章的当前状态?

sparql - 基于部分名称匹配检索维基数据 ID 候选者

python - 使用 SPARQL 查询的 python 代码出错