python - 是否有一个 Python 模块可以在没有 MediaWiki 的情况下解析 Wikipedia 文章?

标签 python mediawiki wikipedia mediawiki-api

我正在尝试梳理维基百科文章,并希望每篇文章都包含以下信息:

纯文本内容、链接、重定向(重定向到当前页面的页面标题)和元数据(每月的页面浏览和编辑)

MediaWiki API 非常全面,但也非常密集,因为它是为编辑页面而设计的。我已经尝试过 Wikipedia 和 mwclient 模块,但这些模块没有可用的元数据。是否有其他可用的工具可以提供 API 的只读功能,而无需 API 的开销?

最佳答案

有几个alternative parsers但总的来说,MediaWiki 的解析很难复制(它没有正式的规范,并且是作为一堆正则表达式实现的)。使用 API 或 DB dumps 几乎总是会更好。 。具体来说,链接和重定向可作为数据库转储中的表使用。文本可通过 extracts API 获取,浏览量为 a work in progress 。我认为聚合编辑数据不可用。

关于python - 是否有一个 Python 模块可以在没有 MediaWiki 的情况下解析 Wikipedia 文章?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31522544/

相关文章:

mediawiki - 如何让 Wikipedia 模板与 MediaWiki 一起使用

mediawiki - 维基百科 Api 获取单词量

iphone - iPhone App 项目的维基百科页面解析器

wikipedia - [SPARQL/DBPedia]我可以从结果中捕获德语维基百科 URL 吗?

java - 使用 eclipse 使用 wikipedia api 所需的 token (或其他东西)

python - Tox 找不到 setup.cfg 文件

python - 查询 pandas 中的数据,其中点按 hexbin 函数分组

MediaWiki API : How to get a list of newly created pages?

python - TypeError : __init__() missing 4 required positional arguments:

python - 如何从抓取的页面中删除字符串的大部分?