我想生成某个域的 URL 列表,但我宁愿不自己抓取该域来节省带宽。那么有没有办法利用现有的爬取数据呢?
我想到的一个解决方案是执行 Yahoo site search ,这让我可以下载 TSV 格式的前 1000 个结果。然而,要获得所有记录,我必须抓取搜索结果。谷歌还支持站点搜索,但不提供下载数据的简单方法。
您能想出一种适用于大多数(如果不是全部)网站的更好方法吗?
谢谢, 理查德
最佳答案
关于url - 如何获取域的 URL 列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1054298/