我正在尝试梳理维基百科文章,并希望每篇文章都包含以下信息:
纯文本内容、链接、重定向(重定向到当前页面的页面标题)和元数据(每月的页面浏览和编辑)
MediaWiki API 非常全面,但也非常密集,因为它是为编辑页面而设计的。我已经尝试过 Wikipedia 和 mwclient 模块,但这些模块没有可用的元数据。是否有其他可用的工具可以提供 API 的只读功能,而无需 API 的开销?
最佳答案
有几个alternative parsers但总的来说,MediaWiki 的解析很难复制(它没有正式的规范,并且是作为一堆正则表达式实现的)。使用 API 或 DB dumps 几乎总是会更好。 。具体来说,链接和重定向可作为数据库转储中的表使用。文本可通过 extracts API 获取,浏览量为 a work in progress 。我认为聚合编辑数据不可用。
关于python - 是否有一个 Python 模块可以在没有 MediaWiki 的情况下解析 Wikipedia 文章?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31522544/