html - 通过重命名从网页下载链接

标签 html linux rename wget

我正在尝试找到一种自动从网页下载所有链接的方法,但我也想重命名它们。例如:

<a href = fileName.txt> Name I want to have </a>

我希望能够获得名为“我想要的名称”的文件(我不担心扩展名)。

我知道我可以获得页面源,然后解析所有链接,然后手动下载它们,但我想知道是否有任何内置工具可以做到这一点。

lynx --dump | grep http:// | cut -d ' ' -f 4

将打印所有可以使用 wget 批量获取的链接 - 但是有没有办法即时重命名链接?

最佳答案

我怀疑开箱即用。我建议你用 Python 或类似的脚本编写一个脚本来下载页面,并加载源代码(尝试使用 Beautiful Soup 库进行容错解析)。然后,只需遍历源代码即可捕获链接及其属性和文本,并下载具有所需名称的文件。除了 Beautiful Soup(如果您需要能够解析草率的 HTML),您所需要的全部都是用 Python 内置的。

关于html - 通过重命名从网页下载链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6560306/

相关文章:

html - 删除 ionic 中 ionic 列表元素的焦点线

java - 带变量的 JSTL 三元语法

html - div后面的div

linux - 防止 gtk FileChooserDialog 在目录中的所有文件上调用 stat?

mongodb - 如何重命名 mongodb 中的嵌套键

html - 如何应用ie10 hack ul li元素的css代码错误显示

python - 在创建时读取文件的 pyinotify 错误?

Linux 内核 : Kernel version string appended with either '' +"or "-dirty"

python - 在 Python 中更改文件扩展名

image - 在matlab中重命名图像文件名