Python-是否有一个模块可以自动从网页上抓取文章的内容？

我知道有 lxml 和 BeautifulSoup，但这对我的项目不起作用，因为我事先不知道我试图从中抓取文章的网站的 HTML 格式是什么。是否有类似于 Readability 的 python 类型的模块，可以很好地查找文章的内容并返回它？

最佳答案

可以使用 PhantomJS (C++) 或 PyPhantomJS ( python )。

它们都是基于 headless WebKit 的浏览器，您可以通过 JavaScript 对其进行完全控制。因为您可以从 JavaScript 控制它，所以我发现抓取文章内容等操作非常容易。

PyPhantomJS还有一个插件系统，所以这绝对是一个加号。 :)

关于Python-是否有一个模块可以自动从网页上抓取文章的内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6543599/