我知道有 lxml 和 BeautifulSoup,但这对我的项目不起作用,因为我事先不知道我试图从中抓取文章的网站的 HTML 格式是什么。是否有类似于 Readability 的 python 类型的模块,可以很好地查找文章的内容并返回它?
最佳答案
可以使用 PhantomJS (C++) 或 PyPhantomJS ( python )。
它们都是基于 headless WebKit 的浏览器,您可以通过 JavaScript 对其进行完全控制。因为您可以从 JavaScript 控制它,所以我发现抓取文章内容等操作非常容易。
PyPhantomJS还有一个插件系统,所以这绝对是一个加号。 :)
关于Python-是否有一个模块可以自动从网页上抓取文章的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6543599/