我需要下载 http://en.wikipedia.org/wiki 的所有页面链接并将它们保存到一个文件中,只需一个命令即可(使用 Windows 版的 Wget)。
Windows 下无法识别 grep 命令。
wget http://en.wikipedia.org/wiki -q -O - |grep -Po '(?<=href=")[^"]*'
文件中链接的输出不需要采用任何特定格式。
你有什么建议?
谢谢
最佳答案
这里有多个问题:
- 工具可用性:默认情况下,
wget
和grep
在 Windows 上不可用。不过有很多端口,看看 here和 here . - HTTPS 验证:维基百科从
http://
转发到https://
,因此您很可能需要添加选项--no -check-certificate
调用(或通过--ca-certificate
提供正确的证书存储)。 - 在 Windows 中转义:要分隔参数,不要使用单引号
'
,而是使用双引号"
。您必须像这样转义参数内的任何双引号\"
。 - 在 Windows 中转义:插入符
^
必须像这样转义:^^
。
总而言之,这将为您提供:
wget --no-check-certificate "http://en.wikipedia.org/wiki" -q -O - | grep -Po "(?<=href=\")[^^\"]*"
关于windows - Wget 提取链接并将其保存到文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33474828/