windows - Wget 提取链接并将其保存到文件中

标签 windows url grep extract wget

我需要下载 http://en.wikipedia.org/wiki 的所有页面链接并将它们保存到一个文件中,只需一个命令即可(使用 Windows 版的 Wget)。

Windows 下无法识别 grep 命令。

wget http://en.wikipedia.org/wiki -q -O - |grep -Po '(?<=href=")[^"]*'

文件中链接的输出不需要采用任何特定格式。

你有什么建议?

谢谢

最佳答案

这里有多个问题:

  1. 工具可用性:默认情况下,wgetgrep 在 Windows 上不可用。不过有很多端口,看看 herehere .
  2. HTTPS 验证:维基百科从 http:// 转发到 https://,因此您很可能需要添加选项 --no -check-certificate 调用(或通过 --ca-certificate 提供正确的证书存储)。
  3. 在 Windows 中转义:要分隔参数,不要使用单引号 ',而是使用双引号 "。您必须像这样转义参数内的任何双引号\"
  4. 在 Windows 中转义:插入符 ^ 必须像这样转义:^^

总而言之,这将为您提供:

wget --no-check-certificate "http://en.wikipedia.org/wiki" -q -O - | grep -Po "(?<=href=\")[^^\"]*"

关于windows - Wget 提取链接并将其保存到文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33474828/

相关文章:

c# - 正确重命名 C# WinForms 中的表单

windows - 在 Python 3 中使用 PythonMagick 进行蒙太奇?

C++ fwrite 缓冲垫字符串

java - 使用相对路径打开 url

.htaccess - 在 .htaccess 的帮助下在 Php 中制作 SEO 友好的 URL

regex - 需要使用正则表达式过滤掉有效的 IP 地址

.net - CefSharp 不能在 WIndows 7 中运行

javascript - 如何将 url 放入 img 标签 (html) 中?

regex一个数字重复n次以上符合grep

linux - 如何使用 "find"和 "grep"来获取文件大小?