bash - 使用wget抓取网站并限制抓取链接总数

标签 bash scripting web-crawler wget

我想通过使用 wget 工具来了解有关爬虫的更多信息。我有兴趣爬取我部门的网站,并找到该网站上的前 100 个链接。到目前为止,下面的命令就是我所拥有的。如何限制爬虫在 100 个链接后停止?

wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

最佳答案

你不能。 wget 不支持这个,所以如果你想要这样的东西,你必须自己编写一个工具。

您可以获取主文件,手动解析链接,然后以 100 项为限逐一获取。但这不是 wget 支持的东西。

你也可以看看 HTTrack for website crawling,它有很多额外的选项:http://www.httrack.com/

关于bash - 使用wget抓取网站并限制抓取链接总数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4973152/

相关文章:

html - bash 脚本 sed 用变量计数替换图像编号

python - 使用 runuser 时重定向到文件的奇怪行为

sql - 生成包含 BLOB 图像数据的 MySQL UPDATE 语句

linux - 首先在客户端本地评估 ssh 远程执行 block 中的指令。为什么?

python - Scrapy 不进入解析方法

php - 更快地抓取页面 [PHP]

linux - 一次全部输出标准输出,而不是逐行输出

bash - 意外标记 `(' 附近的语法错误(可能是 bash 错误)

linux - 适用于 Linux 的易于使用的 AutoHotkey/AutoIt 替代品