windows - Wget 提取链接并将其保存到文件中

我需要下载 http://en.wikipedia.org/wiki 的所有页面链接并将它们保存到一个文件中，只需一个命令即可(使用 Windows 版的 Wget)。

Windows 下无法识别 grep 命令。

wget http://en.wikipedia.org/wiki -q -O - |grep -Po '(?<=href=")[^"]*'

文件中链接的输出不需要采用任何特定格式。

你有什么建议？

谢谢

最佳答案

这里有多个问题:

工具可用性:默认情况下，wget 和 grep 在 Windows 上不可用。不过有很多端口，看看 here和 here .
HTTPS 验证:维基百科从 http:// 转发到 https://，因此您很可能需要添加选项 --no -check-certificate 调用(或通过 --ca-certificate 提供正确的证书存储)。
在 Windows 中转义:要分隔参数，不要使用单引号 '，而是使用双引号 "。您必须像这样转义参数内的任何双引号\"。
在 Windows 中转义:插入符 ^ 必须像这样转义:^^。

总而言之，这将为您提供:

wget --no-check-certificate "http://en.wikipedia.org/wiki" -q -O - | grep -Po "(?<=href=\")[^^\"]*"

关于windows - Wget 提取链接并将其保存到文件中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33474828/

相关文章：

c# - 正确重命名 C# WinForms 中的表单