我即将编写一个类,用于查看 html 源代码并过滤其中的所有 pdf 链接。它背后的想法只是采用父链接+相对链接.. 基本上它的工作原理是
<a href="blabla/123.pdf">pdf</a>
但在某些情况下并非如此,例如如果相同的pdf链接写为
<a href="./blabla/123.pdf">pdf</a>
或
<a href=" blabla/123.pdf">pdf</a>
(点和空间)都是工作链接,如果在浏览器中解析它们,则它们会转到同一目录中的相同 pdf,但对于我的类(class)中的组合来说完全无用。
我解决了上述两种情况的问题。问题是语法中是否还有其他特殊情况需要注意。
最佳答案
在下载文件之前,您不知道链接指向什么。
我可以有一个类似 http://www.mysite.com/pages/brochure.html
的链接,它在内部重定向到 PDF 文件。
因此,如果您无法控制链接,或者无法处理网站的特定部分,那么您就会失败。
另一方面,如果您正在处理网站的特定部分,并且知道每个 PDF 链接都有 .pdf
扩展名,则只需检查扩展名而不是整个内容路径(不知道在 Java 中如何编写 C# 的 .lastIndexOf("string")
内容)。
关于java - 从html源代码中过滤pdf链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5729626/