java - 从html源代码中过滤pdf链接

我即将编写一个类，用于查看 html 源代码并过滤其中的所有 pdf 链接。它背后的想法只是采用父链接+相对链接.. 基本上它的工作原理是

<a href="blabla/123.pdf">pdf</a>

但在某些情况下并非如此，例如如果相同的pdf链接写为

<a href="./blabla/123.pdf">pdf</a>

或

<a href=" blabla/123.pdf">pdf</a>

(点和空间)都是工作链接，如果在浏览器中解析它们，则它们会转到同一目录中的相同 pdf，但对于我的类(class)中的组合来说完全无用。

我解决了上述两种情况的问题。问题是语法中是否还有其他特殊情况需要注意。

最佳答案

在下载文件之前，您不知道链接指向什么。

我可以有一个类似 http://www.mysite.com/pages/brochure.html 的链接，它在内部重定向到 PDF 文件。

因此，如果您无法控制链接，或者无法处理网站的特定部分，那么您就会失败。

另一方面，如果您正在处理网站的特定部分，并且知道每个 PDF 链接都有 .pdf 扩展名，则只需检查扩展名而不是整个内容路径(不知道在 Java 中如何编写 C# 的 .lastIndexOf("string") 内容)。

关于java - 从html源代码中过滤pdf链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5729626/

相关文章：

PHP显示特定时间之间的链接