java - 从html源代码中过滤pdf链接

标签 java html hyperlink

我即将编写一个类,用于查看 html 源代码并过滤其中的所有 pdf 链接。它背后的想法只是采用父链接+相对链接.. 基本上它的工作原理是

<a href="blabla/123.pdf">pdf</a>

但在某些情况下并非如此,例如如果相同的pdf链接写为

<a href="./blabla/123.pdf">pdf</a> 

<a href=" blabla/123.pdf">pdf</a>

(点和空间)都是工作链接,如果在浏览器中解析它们,则它们会转到同一目录中的相同 pdf,但对于我的类(class)中的组合来说完全无用。

我解决了上述两种情况的问题。问题是语法中是否还有其他特殊情况需要注意。

最佳答案

在下载文件之前,您不知道链接指向什么。

我可以有一个类似 http://www.mysite.com/pages/brochure.html 的链接,它在内部重定向到 PDF 文件。

因此,如果您无法控制链接,或者无法处理网站的特定部分,那么您就会失败。

另一方面,如果您正在处理网站的特定部分,并且知道每个 PDF 链接都有 .pdf 扩展名,则只需检查扩展名而不是整个内容路径(不知道在 Java 中如何编写 C# 的 .lastIndexOf("string") 内容)。

关于java - 从html源代码中过滤pdf链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5729626/

相关文章:

PHP显示特定时间之间的链接

html - 在 HTML 中使用文件路径作为超链接

java - 如何在 Wicket 口中实现具有 2 个相关下拉菜单的可编辑网格?

java - 记录已删除对象的 BlockingQueue 装饰器

javascript - 如何在 php laravel 的第二页保留过滤器选项?

css - 复杂的 CSS 定位

java - 冒号前的正则表达式

java - Libgdx iOS - GC 能力不匹配

jquery - bootstrap 中带有 carousal 的下拉菜单的子菜单项未显示

c++ - wxWidgets -> 显示网页链接