bash - wget 尝试从某些网站获取图像的问题

标签 bash wget

我正在尝试从该网站路径下载所有图像 http://www.samsung.com/sg/consumer/mobile-devices/smartphones/ 使用下面的代码

wget -e robots=off -nd -nc -np --recursive -r -p --level=5 --accept jpg,jpeg,png,gif --convert-links -N --limit-rate=200k --wait 1.0 -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:14.0) Gecko/20100101 Firefox/14.0.1' -P testing_folder  www.samsung.com/sg/consumer/mobile-devices/smartphones

我希望看到手机图片下载到我的 testing_folder。但我看到的只是一些全局图片,如 Logo 等。我似乎无法下载手机图片。上面的代码似乎可以在其他一些网站上运行。

我已经浏览了这个论坛上的所有 wget 问题,但这个特定问题似乎没有答案。有人可以帮忙吗,我相信有一个简单的方法。我做错了什么?

更新: 看起来这是一个可能的 javascript 页面的问题,因此似乎是路的尽头,因为显然 wget 不能很好地处理 javascript 页面。如果有人仍然可以提供帮助,将很高兴。

最佳答案

步骤:

  1. 配置代理服务器,例如使用 mod_proxy 和 mod_http_proxy 的 Apache httpd

  2. 使用支持 JavaScript 并配置为使用代理服务器的 Web 浏览器访问页面

  3. 从代理服务器日志文件中收集 URL 并将它们放入文件中

或者:

  1. 启动Firefox并打开网页

  2. F10-工具-页面信息-媒体-右键-全选-右键-复制

  3. 使用您喜欢的编辑器粘贴到文件中

然后:

  1. 可选地,(如果您不想了解如何让 wget 从文件中读取 URL 列表),向文件添加最少的 html 标签(html、body 和 img)

  2. 使用 wget 下载指定在步骤 3 或 4 中创建的文件作为起点的图像

关于bash - wget 尝试从某些网站获取图像的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30898762/

相关文章:

bash - 在 bash 函数中生成后台进程

linux - Bash循环比较文件

linux - 编译选项基本./configure解释

wget - 如何使用wget下载带有mathjax的站点的本地副本?

linux - 如何使用 cURL 测试并等待 HTTP 服务?

bash - 如何避免 heredoc 扩展变量?

linux - printf\'<a>\' 给出错误 - 找不到指定的文件

linux - wget 或类似程序是否始终在 POSIX 系统上可用?

linux - 在 Shell 脚本 (wget) 中使用 '

bash - 下载大型 Google 云端硬盘文件