java - 用于从网站下载所有 .pdf 文件的 Python/Java 脚本

标签 java python html download

我想知道是否可以编写一个脚本,以编程方式遍历整个网页并自动下载所有 .pdf 文件链接。在我开始自己尝试之前,我想知道这是否可行。

问候

最佳答案

是的,这是可能的。 要下载 pdf 文件,您甚至不需要使用 Beautiful Soup 或 Scrapy。

从 python 下载非常简单 构建所有 linkpdf 链接的列表并下载它们

引用如何建立链接列表: http://www.pythonforbeginners.com/code/regular-expression-re-findall

如果您需要爬取多个链接页面,那么其中一个框架可能会有所帮助 如果您愿意在这里构建自己的爬虫,这是一个很棒的教程,顺便说一句,这也是对 Python 的一个很好的介绍。 https://www.udacity.com/course/viewer#!/c-cs101

关于java - 用于从网站下载所有 .pdf 文件的 Python/Java 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21798405/

相关文章:

java - Spring MVC;测试重定向是否是相对的

python - 为什么我们在 Tensorflow 中命名变量?

python - 不使用循环将多行插入数据库

html - 我可以让子滚动并忽略其固定父级吗?

javascript - 滚动时 jQuery 不透明度被切断

java - 如何将返回的对象转换为所需的bean/pojo

java - 从具有日期条件的数据库中选择值

java - 将匿名内部类转换为 Java 8 lambda

python - 如何从字典中的列表中的字典键中获取所有值

javascript - Chartist 饼图,下一行需要标签