java - 在 Java 中对 HTML 使用 XPath Contains

标签 java xpath html-parsing

我正在使用 Java 程序中的 XPath 从 HTML 页面中抓取值以获取特定标签,并且偶尔使用正则表达式来清理我收到的数据。

经过一番研究,我选择了 HTML Cleaner (http://htmlcleaner.sourceforge.net/),这是将原始 HTML 解析为良好 XML 格式的最可靠方法。然而,HTML Cleaner 只支持 XPath 1.0,我发现自己需要像“包含”这样的功能。例如,在这段 XML 中:

<div>
  <td id='1234 foo 5678'>Hello</td>
</div>

我希望能够使用以下 XPath 获取文本“Hello”:

//div/td[contains(@id, 'foo')]/text()

有没有办法获得这个功能?我有几个想法,但如果不需要的话,我不想重新发明轮子:

  • 如果有办法调用 HTML Cleaner 的 evaluateXPath 并返回 TagNode(我还没有找到),我可以在返回的 TagNode 上使用 XML 序列化程序并将 XPath 链接在一起以实现所需的功能。
  • 我可以使用 HTML Cleaner 清理为 XML,将其序列化回字符串,然后将其与另一个 XPath 库一起使用,但我找不到适用于字符串的良好 java XPath 评估器。
  • 使用像 getElementsByAttValue 这样的 TagNode 函数,我基本上可以重新创建 XPath 评估并使用 String.contains 插入包含功能

小问题:有什么方法可以在现有 Java 库中的 HTML 上使用 XPath 包含?

最佳答案

关于这个:

I could use HTML Cleaner to clean to XML, serialize it back to a string, and use that with another XPath library, but I can't find a good java XPath evaluator that works on a string.

正是我会做的(除非您不需要对字符串进行操作(见下文))。

很多 HTML 解析器尝试做的太多。例如,HTMLCleaner 没有正确/完整地实现 XPath 1.0 规范(contains(例如)is an XPath 1.0 function)。好消息是你不需要它。 HTMLCleaner 所需要的只是解析格式错误的输入。完成此操作后,最好使用标准 XML 接口(interface)来处理生成的(现在格式良好的)文档。

首先将文档转换为标准的org.w3c.dom.Document,如下所示:

TagNode tagNode = new HtmlCleaner().clean(
        "<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
        new CleanerProperties()).createDOM(tagNode);

然后使用标准的 JAXP 接口(interface)来查询它:

XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()", 
                       doc, XPathConstants.STRING);
System.out.println(str);

输出:

Hello

关于java - 在 Java 中对 HTML 使用 XPath Contains,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9022140/

相关文章:

java - 如何解析 HTML 并获取 CSS 样式

r - 将很长的字符串中的数字提取到向量中

java - Hibernate 与连接表的映射异常

java - 使用 c :import in a . jsp 导入特定元素

java - 由于 JAXBException : IllegalAnnotationExceptions,实现 GET REST 服务时出现问题

xml - Xpath 选择包含特定列表子集的元素

.net - 如何使用 XDocument.XPathEvaluate 处理空命名空间?

php - 从 <pre> </pre> 标签中移除 <br/>

java - 位移 X 比位移 X 倍快吗?

java - 从 CXF 2.7 升级到 CXF 3.0