javascript - 如何使用 BeautifulSoup 抓取由 javascript 生成的数据?

标签 javascript python json web-scraping beautifulsoup

我正在尝试使用 python 和 BeautifulSoup 进行网络抓取来迁移博客中的一些评论。我正在寻找的内容不在 HTML 本身中,并且似乎是在脚本标记中生成的(我找不到)。我已经看到了一些与此相关的答案,但大多数答案都是特定于某个问题的,我似乎不知道如何将其应用到我的网站上。我只是想从这样的页面上抓取评论:

http://www.themasterpiececards.com/famous-paintings-reviewed/bid/92327/famous-paintings-duccio-s-maesta

我也尝试过 Selenium,但我目前使用的是基于 Cloud9 的 IDE,它似乎不支持 Web 驱动程序。

如果我弄错了任何术语,我深表歉意,我对编程还很陌生。如果有人有任何提示,那将会很有帮助。谢谢!

最佳答案

您可以通过多种方式废弃此类内容。其中之一是了解该网站上的评论是如何加载的。在 Chromium 开发者工具中快速查找时,提到的页面的评论通过 this 加载。 API 调用。

这可能不适合您,因为您可能无法为每个不同的页面生成此 URL。

另一种更可靠的方法是使用 GUIless 浏览器渲染此类 js 内容,为了便于实现,我建议使用 scrapy 和 splash 。Splash 是一个 python 框架,可以为您渲染大部分内容请求。

关于javascript - 如何使用 BeautifulSoup 抓取由 javascript 生成的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48393021/

相关文章:

javascript - Electron:防止中键点击

javascript - 如何动态创建<input type =“text”/>

python - Django 模型类和自定义属性

python - 使用 pycurl 和端口号检索 url 的源代码?

javascript - draw2d javascript 库 - 多行标签

javascript - 未引用脚本的 Console.log

python - 从索引位置列表中创建非均匀(随机)间隔的范围?

java - 我的 json 代码工作正常,但是当添加 Glide 来解析图像时应用程序强制停止

json - 整理大型非结构化 REST/JSON 响应

javascript - 使用 Twitter Bootstrap 从 JSON 加载模态内容