我想知道是否可以编写一个脚本,以编程方式遍历整个网页并自动下载所有 .pdf 文件链接。在我开始自己尝试之前,我想知道这是否可行。
问候
最佳答案
是的,这是可能的。 要下载 pdf 文件,您甚至不需要使用 Beautiful Soup 或 Scrapy。
从 python 下载非常简单 构建所有 linkpdf 链接的列表并下载它们
引用如何建立链接列表: http://www.pythonforbeginners.com/code/regular-expression-re-findall
如果您需要爬取多个链接页面,那么其中一个框架可能会有所帮助 如果您愿意在这里构建自己的爬虫,这是一个很棒的教程,顺便说一句,这也是对 Python 的一个很好的介绍。 https://www.udacity.com/course/viewer#!/c-cs101
关于java - 用于从网站下载所有 .pdf 文件的 Python/Java 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21798405/