javascript - 使用 Apify 抓取多个页面

标签 javascript apify

是否可以使用带有伪 URL 的 Apify 抓取多个页面?

当人们问同样的问题时,大多数答案都指向伪 URL,并且并没有真正直接解决问题(如果可能/不可能这样做)。

如果我在运行爬虫时不知道伪 URL,并且我从一个页面中抓取了 10 个链接 - 然后想抓取这 10 个链接,该怎么做?

https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages

最佳答案

简短回答:

是的。

长答案:

有两种主要方法可以将更多页面添加到抓取队列中。

预先确定的结构:

伪 URL 用于跟踪符合特定结构的链接。网站通常会在其使用的 URL 中使用某种结构。例如:

https://github.com

使用结构:

https://github.com/{username}/{repository}

因此,如果您想抓取用户 apifytech 的所有存储库,您可以使用如下伪 URL:

https://github.com/apifytech/[.+]

您可以在 tutorial for Apify SDK 中找到有关 PseudoURL 的更多信息。 .

在运行时动态添加 URL

如果您需要在运行时向抓取队列动态添加更多链接,有多种选择。

当使用Apify SDK时,您始终可以使用 requestQueue.addRequest()函数或 utils.enqueueLinks()功能。

使用 Apify Web Scraper 时,您可以使用 context.enqueueRequest() 动态添加更多页面.

关于javascript - 使用 Apify 抓取多个页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55232240/

相关文章:

javascript - 创建一个通用的扰流板盒

javascript - 加载本地文件时出现 "Cross origin requests are only supported for HTTP."错误

puppeteer - session 和并发以及它们之间的关系

javascript - 使用 Apify 进行网页抓取

javascript - 设置来自 google 位置权限的 Javascript cookie?

javascript - 从字符串中删除前导逗号

javascript - Puppeteer $.eval 选择嵌套元素

javascript - 我需要一些帮助来修改 Apify 爬网程序

java - CellList 保持选定的单元格被选中?