我试图弄清楚维基数据的条目有多少是“有机的”,即数据是由人类输入且独立于维基百科的。
Wikidata introduction page说“自动化机器人也会将数据输入维基数据。”是否有关于机器人输入了多少维基数据数据的统计数据?
我知道维基数据是一个独立于维基百科的组织。是否有关于有多少维基数据条目源自维基百科的统计数据? (例如,一个人阅读维基百科文章,找到维基数据中没有的事实,然后使用该维基百科文章作为引用将该事实输入维基数据。)
我熟悉 Wikidata 的 SPARQL API,可以查找解决这些问题可能需要的任何内容。
最佳答案
当您检查"recent changes"时(并停用“仅限人类”过滤器),或任何特定页面/项目的历史记录,机器人都标有一个小“b”,它们的名字也以“...Bot”结尾。
如果仅通过“语句数量”来衡量,机器人可能会添加大部分数据。如果按重要性/观看次数来衡量,人类可能领先。
你没有提到的一个群体,但可能很重要,是“介于两者之间”:使用 OpenRefine 的人或 QuickStatements 半手动匹配(“协调”)某些外部数据集并将其导入。例如,计算生物学界确实使用维基数据作为这种形式的中心。
从维基百科导入提供了很多结构,因为每个页面都有其维基数据项(而且只有一个)。但大部分数据来自其他公共(public)数据集。
出于我无法理解的原因,一些维基百科和维基数据之间的关系并不总是完美的。由于每个项目在此类问题上都有很大的自由度,因此有些项目不再使用维基数据作为存储结构化信息的后端,而是开始做自己的事情。当发生这种情况时,要么有人继续至少在一个方向上同步它。或者数据开始出现分歧。例如,最近,英语维基百科决定使用一些本土方法来管理短页面描述。
(编辑,回答评论中的问题:)机器人数据的质量控制通常与其他编辑相同,除了机器人编辑(以及类似的编辑,例如使用 QuickStatement 的编辑)被标记为这样。
最近页面的概述会引起人们对任何变化的注意,将项目添加到您的个人监视列表的功能也是如此。还有一个人工智能系统(与 en.wikipedia.org 上的相同)可以预测恶意和低质量的编辑,这些编辑会被标记为此类,在更改中突出显示,并在过滤器中可用。同一用户的相关编辑也会合并到“编辑组”中,并且 this page显示最近的。属性(property)也有许多限制,例如要求出生和死亡日期必须是过去的日期,要求“公民”属性(property)的对象必须是人,等等。违反这些限制的行为会在项目页面以及各种列表中标有 (!)。所以属性"awards received"需要 object to be a person/creative work/organisation/etc.约8000起违规事件为listed here ,然后单击其中一个显示 a case where a person is missing声明“是一个:人”。
关于wikipedia - 维基数据有多少是有机的(用户输入的,独立于维基百科)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63367956/