我想通过使用 wget 工具来了解有关爬虫的更多信息。我有兴趣爬取我部门的网站,并找到该网站上的前 100 个链接。到目前为止,下面的命令就是我所拥有的。如何限制爬虫在 100 个链接后停止?
wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"
最佳答案
你不能。 wget 不支持这个,所以如果你想要这样的东西,你必须自己编写一个工具。
您可以获取主文件,手动解析链接,然后以 100 项为限逐一获取。但这不是 wget 支持的东西。
你也可以看看 HTTrack for website crawling,它有很多额外的选项:http://www.httrack.com/
关于bash - 使用wget抓取网站并限制抓取链接总数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4973152/