url - 如何获取域的 URL 列表

标签 url dns screen-scraping web-crawler

我想生成某个域的 URL 列表,但我宁愿不自己抓取该域来节省带宽。那么有没有办法利用现有的爬取数据呢?

我想到的一个解决方案是执行 Yahoo site search ,这让我可以下载 TSV 格式的前 1000 个结果。然而,要获得所有记录,我必须抓取搜索结果。谷歌还支持站点搜索,但不提供下载数据的简单方法。

您能想出一种适用于大多数(如果不是全部)网站的更好方法吗?

谢谢, 理查德

最佳答案

您可以通过此在线工具免费下载最多 500 个网址的列表:

XML Sitemap Generator

...只需在工具抓取您的网站后选择“文本列表”即可。

关于url - 如何获取域的 URL 列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1054298/

相关文章:

python - 有什么方法可以在不将视频保存到本地的情况下从视频URL中提取音频吗?

php - 在 URL App Inventor 中使用大于 ( >= )

url - 在 url 中路由 Zend Framework 2 语言

dns - 比较两个不同名称服务器上的 DNS

node.js - Firebase 的云功能 - getaddrinfo ENOTFOUND

azure - 无法使用 Azure DNS 区域通过 Kubernetes 和 Letsencrypt 创建通配符 (*) 证书

ruby - 是否可以使用机器人打开浏览器,手动操作页面,然后继续使用机器人?

java - 我可以在 java 类型 URL 上有一个自定义协议(protocol)吗?

ruby-on-rails - 方法 width 和 height Mechanize

python - 将多个html文件抓取到CSV