Python-是否有一个模块可以自动从网页上抓取文章的内容?

标签 python algorithm screen-scraping beautifulsoup lxml

我知道有 lxml 和 BeautifulSoup,但这对我的项目不起作用,因为我事先不知道我试图从中抓取文章的网站的 HTML 格式是什么。是否有类似于 Readability 的 python 类型的模块,可以很好地查找文章的内容并返回它?

最佳答案

可以使用 PhantomJS (C++) 或 PyPhantomJS ( python )。

它们都是基于 headless WebKit 的浏览器,您可以通过 JavaScript 对其进行完全控制。因为您可以从 JavaScript 控制它,所以我发现抓取文章内容等操作非常容易。

PyPhantomJS还有一个插件系统,所以这绝对是一个加号。 :)

关于Python-是否有一个模块可以自动从网页上抓取文章的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6543599/

相关文章:

使用 IPython 时,python 推特模块在 __init__ 期间看不到 _file_cache 加载

java - 使用java方法计算python中列表的所有子集

excel - PDF 数据和表格抓取到 Excel

python - 如何彻底拆除数据库连接和 session ?

python - 如何检查一个字符串中的两个连续值是否是另一个字符串中的字符

python - 我们可以用一条数据线创建散点图吗

c# - 如何从给定的父节点获取所有子节点?

javascript - Photoshop 用于匹配图像颜色的算法

java - 用于 Java、Ruby、Python 的 HTML Agility Pack 或 HTML Screen Scraping 库?

python - 使用查询抓取网页