java - Java从html页面获取html链接

标签 java xml

我正在尝试获取一些 html 链接(可以包含 UTF-8 字符，如俄语 aso)并将它们存储在我的 java 应用程序中的字符串中。由于我收到的 html 页面包含很多错误，因此我使用了 HtmlCleaner(顺便说一句，它效果非常好)。

有了这些干净的 html 页面，我现在面临一个问题: 我尝试使用 XSL 样式表将这些字符串收集在 XML 文件中，但是当我想使用 dom4j SAXReader 读取文件时失败，因为一些特殊字符(例如链接中参数的 & )仍然存在。

所以我的问题是:获取这些 html 链接并将它们存储在字符串中而不必解析它们 36 次的最简单方法是什么。

HTML 页面包含一个表格。这是一行:

<tr>
<td>1</td>
<td>name</td>
<td>title</td>
<td>3:48</td>
<td align="center"><a href="http://..." target="_blank" rel="nofollow"  ><img src="images/fisher_listen_icon1.gif" width="18" height="18" border=0></a></td>
<td align="center"><a target=_blank rel="nofollow" onclick="loadornot()" href="http://..."><img border=0 width="18" height="18" src="images/d.gif"></a></td>
</tr>

我想将此行存储在一个对象中(每个 td 将是一个属性)。

谢谢;)

最佳答案

在解析 HTML 时使用 url.replace("&", "&") 等代码替换 & 符号。

关于java - Java从html页面获取html链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8258812/

上一篇：java - Jamod(modbus,Java)大师编程，为什么会重复事务？

下一篇：java - 关于执行 BufferedReader.readLine() : Unexpected end of ZILB input stream

相关文章：

java - 在java中持久化对话框的数据

java - 如何测试Spring-Cache？

java - 基本网络客户端中的意外输出

java - 如何在 java 枚举中搜索？

java - 通过 XPath 中的 xmlns 识别 XML

Java ScheduledExecutorService 在 servlet 初始化后停止一段时间

android - Google Analytics XML 配置文件与 JSON？

java - XML SOAP 信封在 JAXB 中变为空

python - 如何解析奇怪的Python请求响应？

python - 我想从给定的 url 中获取 json 数据，而我必须将 json 数据转换成 xml 形式