我已经四处寻找但没有得到太多帮助。这是我的问题。我想从维基百科上的门户页面开始,例如 Computer_science然后去它的categories页。该类别中有一些页面,并且有指向子类别的链接。我将访问其中一些页面并单独获取页面摘要。然后使用此类别页面中的指针转到下一个级别,依此类推。
我了解 C++/php/js/python。哪个最适合这里?我想在一天之内完成这件事。我知道有一个 api,但它似乎对获取内容没有帮助。
- 我需要获取页面
- 解析它们以获取类别 div(或原始 wiki 数据提供的元素),以获取摘要以及转到其他页面。
我需要有关编程语言、库和公共(public)代码的建议(如果有)。 我还听说 wiki 不喜欢机器人爬虫,我计划最多获取 500 个文档。这是一个问题吗?
非常感谢
最佳答案
不一定有一个类别与门户相对应,尽管您可以尝试查找与门户同名的类别、门户页面所在的类别(使用 API,您可以使用prop=categories
),或从门户页面链接的类别页面 (prop=links&plnamespace=14
)。
任何一种语言都可以。您还可以选择 perl、java、C#、objective-c 或任何其他语言。可以找到不同质量的框架列表 here或here .
API 当然可以使用 prop=revisions
为您提供内容。您甚至可以使用 rvsection=0
仅查询“lead”部分。 API 还可以使用 list=categorymembers
为您提供类别中的页面列表,并使用 prop=categories
为您提供页面的类别列表。
500 页应该不是问题。如果您想要大部分文章,您需要考虑使用 database dump相反。
参见the API documentation了解详情。
关于javascript - 仅获取维基百科摘要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5231671/