bash - 使用wget抓取网站并限制抓取链接总数

我想通过使用 wget 工具来了解有关爬虫的更多信息。我有兴趣爬取我部门的网站，并找到该网站上的前 100 个链接。到目前为止，下面的命令就是我所拥有的。如何限制爬虫在 100 个链接后停止？

wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

最佳答案

你不能。 wget 不支持这个，所以如果你想要这样的东西，你必须自己编写一个工具。

您可以获取主文件，手动解析链接，然后以 100 项为限逐一获取。但这不是 wget 支持的东西。

你也可以看看 HTTrack for website crawling，它有很多额外的选项:http://www.httrack.com/

关于bash - 使用wget抓取网站并限制抓取链接总数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4973152/

相关文章：

html - bash 脚本 sed 用变量计数替换图像编号