是否可以使用 wget 从特定 TLD 递归下载文件?
具体来说,我正在尝试下载 Code of Massachusetts Regulations 的全文。法规的实际文本存储在跨多个域的多个文件中,因此我想从 index page 开始递归下载。 ,但仅关注 .gov 和 .us 域的链接。
最佳答案
在 wget documentation on spanning hosts 的帮助下,我能够使用 -H 和 -D 标志来完成这项工作:
wget -r -l5 -H -D.us,.gov http://www.lawlib.state.ma.us/source/mass/cmr/index.html
关于recursion - 如何在特定 TLD 上递归 wget?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10503147/