javascript - 如何使用 BeautifulSoup 抓取由 javascript 生成的数据？

标签 javascript python json web-scraping beautifulsoup

我正在尝试使用 python 和 BeautifulSoup 进行网络抓取来迁移博客中的一些评论。我正在寻找的内容不在 HTML 本身中，并且似乎是在脚本标记中生成的(我找不到)。我已经看到了一些与此相关的答案，但大多数答案都是特定于某个问题的，我似乎不知道如何将其应用到我的网站上。我只是想从这样的页面上抓取评论:

http://www.themasterpiececards.com/famous-paintings-reviewed/bid/92327/famous-paintings-duccio-s-maesta

我也尝试过 Selenium，但我目前使用的是基于 Cloud9 的 IDE，它似乎不支持 Web 驱动程序。

如果我弄错了任何术语，我深表歉意，我对编程还很陌生。如果有人有任何提示，那将会很有帮助。谢谢!

最佳答案

您可以通过多种方式废弃此类内容。其中之一是了解该网站上的评论是如何加载的。在 Chromium 开发者工具中快速查找时，提到的页面的评论通过 this 加载。 API 调用。

这可能不适合您，因为您可能无法为每个不同的页面生成此 URL。

另一种更可靠的方法是使用 GUIless 浏览器渲染此类 js 内容，为了便于实现，我建议使用 scrapy 和 splash 。Splash 是一个 python 框架，可以为您渲染大部分内容请求。

关于javascript - 如何使用 BeautifulSoup 抓取由 javascript 生成的数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48393021/