我正在尝试获取一些 html 链接(可以包含 UTF-8 字符,如俄语 aso)并将它们存储在我的 java 应用程序中的字符串中。 由于我收到的 html 页面包含很多错误,因此我使用了 HtmlCleaner(顺便说一句,它效果非常好)。
有了这些干净的 html 页面,我现在面临一个问题: 我尝试使用 XSL 样式表将这些字符串收集在 XML 文件中,但是当我想使用 dom4j SAXReader 读取文件时失败,因为一些特殊字符(例如链接中参数的 & )仍然存在。
所以我的问题是:获取这些 html 链接并将它们存储在字符串中而不必解析它们 36 次的最简单方法是什么。
HTML 页面包含一个表格。这是一行:
<tr>
<td>1</td>
<td>name</td>
<td>title</td>
<td>3:48</td>
<td align="center"><a href="http://..." target="_blank" rel="nofollow" ><img src="images/fisher_listen_icon1.gif" width="18" height="18" border=0></a></td>
<td align="center"><a target=_blank rel="nofollow" onclick="loadornot()" href="http://..."><img border=0 width="18" height="18" src="images/d.gif"></a></td>
</tr>
我想将此行存储在一个对象中(每个 td 将是一个属性)。
谢谢;)
最佳答案
在解析 HTML 时使用 url.replace("&", "&")
等代码替换 & 符号。
关于java - Java从html页面获取html链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8258812/