wikipedia - 如何下载和使用维基百科数据转储?

标签 wikipedia information-retrieval wikidata knowledge-graph

我想计算特定语言的 wiki 转储中的实体/类别,比如英语。对于初学者来说,很难找到/遵循官方文档。到目前为止我所了解的是我可以下载一个 XML 转储(我从所有可用的不同文件中下载什么),并解析它(?)以计算实体(文章主题)和类别。

此信息(如果有的话)很难找到。请提供一些关于我如何使用它的说明或我可以了解它的资源。

谢谢!

最佳答案

转储相当笨重:即使是“真实”的小转储也有 25G。由于 RDF 相当冗长,因此扩展到 >100G。所以我的一般建议是避免转储。

如果实在忍不住,https://wdumps.toolforge.org/dumps允许您仅使用所需的语言/属性/实体创建自定义的转储子集。

然后,逐行阅读并……对每一行做一些事情

关于wikipedia - 如何下载和使用维基百科数据转储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63035431/

相关文章:

java - 使用jsoup从两个标签之间提取不明的html内容?正则表达式?

java - 尽管使用了 StopAnalyzer 和 StopFilter,Apache Lucene 不会过滤停用词

java - 如何仅从 HTML 页面中提取主要文本内容?

python-3.x - 如何使用维基百科 API 获取位置查询(国家或州/省和/或县)的人口?

python - 如何使用 MediaWiki API 获取子子类别中的文章数量

python - 使用 BeautifulSoup 进行多处理来改进 Wikipedia 抓取

java - 如何在浏览器中获取旧格式的 MediaWiki API 输出?

ios - Firebase 元素在调用、iOS、Swift 中可能不存在

wikidata - 获取某些属性的使用值列表

java - 为什么我似乎无法从 URL 流读取整个压缩文件?