我正在尝试找到一种自动从网页下载所有链接的方法,但我也想重命名它们。例如:
<a href = fileName.txt> Name I want to have </a>
我希望能够获得名为“我想要的名称”的文件(我不担心扩展名)。
我知道我可以获得页面源,然后解析所有链接,然后手动下载它们,但我想知道是否有任何内置工具可以做到这一点。
lynx --dump | grep http:// | cut -d ' ' -f 4
将打印所有可以使用 wget 批量获取的链接 - 但是有没有办法即时重命名链接?
最佳答案
我怀疑开箱即用。我建议你用 Python 或类似的脚本编写一个脚本来下载页面,并加载源代码(尝试使用 Beautiful Soup 库进行容错解析)。然后,只需遍历源代码即可捕获链接及其属性和文本,并下载具有所需名称的文件。除了 Beautiful Soup(如果您需要能够解析草率的 HTML),您所需要的全部都是用 Python 内置的。
关于html - 通过重命名从网页下载链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6560306/