javascript - 仅获取维基百科摘要

标签 javascript python parsing web-crawler wikipedia

我已经四处寻找但没有得到太多帮助。这是我的问题。我想从维基百科上的门户页面开始,例如 Computer_science然后去它的categories页。该类别中有一些页面,并且有指向子类别的链接。我将访问其中一些页面并单独获取页面摘要。然后使用此类别页面中的指针转到下一个级别,依此类推。

我了解 C++/php/js/python。哪个最适合这里?我想在一天之内完成这件事。我知道有一个 api,但它似乎对获取内容没有帮助。

  1. 我需要获取页面
  2. 解析它们以获取类别 div(或原始 wiki 数据提供的元素),以获取摘要以及转到其他页面。

我需要有关编程语言、库和公共(public)代码的建议(如果有)。 我还听说 wiki 不喜欢机器人爬虫,我计划最多获取 500 个文档。这是一个问题吗?

非常感谢

最佳答案

不一定有一个类别与门户相对应,尽管您可以尝试查找与门户同名的类别、门户页面所在的类别(使用 API,您可以使用prop=categories),或从门户页面链接的类别页面 (prop=links&plnamespace=14)。

任何一种语言都可以。您还可以选择 perl、java、C#、objective-c 或任何其他语言。可以找到不同质量的框架列表 herehere .

API 当然可以使用 prop=revisions 为您提供内容。您甚至可以使用 rvsection=0 仅查询“lead”部分。 API 还可以使用 list=categorymembers 为您提供类别中的页面列表,并使用 prop=categories 为您提供页面的类别列表。

500 页应该不是问题。如果您想要大部分文章,您需要考虑使用 database dump相反。

参见the API documentation了解详情。

关于javascript - 仅获取维基百科摘要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5231671/

相关文章:

python - 使用正则表达式获取错误数据

xml - 将 XML 文件加载到 Hive 表

python - 从特定的分隔符拆分

javascript - Socket.io 会乱序发送吗?如果不稳定怎么办?

javascript - C3js : How to hide ticks on y-axis? Y轴标签被 chop

python - Flask_migrate 可以在数据库初始化文件中与 sqlAlchemy create_engine 一起运行吗?

python - 如何使用office365-rest-python-api从sharepoint下载文件

javascript - django-autocomplete-light 给出 javascript 错误

javascript - Bootstrap : Why isnt my glyphicon showing?

python - edX LMS 端口 8000 已在使用中(即使在终止进程之后)