尝试执行wget下载。
除非我开始限制文件类型(垃圾文件等),否则它会下载数千个文件。从理论上讲,限制文件类型是可以的。
但是,有许多文件可以下载而没有文件扩展名,例如,使用Adobe手动打开时,它们实际上是PDF。这些实际上是我想要的文件。
将wget限制为PDF类型不会下载这些文件。
到目前为止,我的语法是 wget -r --no-parent A.pdf www.websitehere.com
使用 wget -r --no-parent www.websitehere.com 带给我每种文件类型,因此从理论上讲,我拥有一切。但这意味着要删除1000个垃圾文件,然后再重命名几百个未知文件类型的有用文件。
关于如何使用适当的文件扩展名获取和保存文件的任何想法?
或者,是否有一种方法将wget限制为仅不具有文件扩展名的文件,然后采用单独的批处理方法来确定文件类型并适本地重命名?
手动测试每个文件以确定适当的应用程序将花费大量时间。
感谢任何帮助!
最佳答案
wget
具有--adjust-extension
选项,它将为HTML和CSS文件添加正确的扩展名。不过,其他文件(如PDF)可能无法正常工作。 See the complete documentation here。
关于wget下载并重命名最初没有文件扩展名的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17799893/