我正在尝试编写一个网络爬虫,以获取一些销售线索。问题是,在现代网页设计中,大多数网站都使用一些 JavaScript 来修改 DOM(通常使用 React、Angular,甚至只是一些 jQuery)。问题是,如果我通过 request
node.js 包废弃一些网站,并将 html 代码传递给 cheerio
,那么我根本无法解析代码并且得到我想要的信息。相反,我只能看到一些 React.js 组件 ́_ツ_/̊
有关此主题的任何资源都会有所帮助,提前致谢。
最佳答案
因为request包不会执行页面上的任何 javascript。它只会按原样下载 html。如果您想像浏览器一样查看实际页面,则必须创建一个 javascript 解析器,以您希望的状态执行所有 javascript 代码。
幸运的是,这里还有一些其他选项:
关于javascript - Node.js中的Webscraper,JS修改DOM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50388441/