html - 如何向 JTidy 添加新标签?

标签 html parsing jtidy

我正在尝试使用 jTidy 从(现实世界)HTML 中提取数据。但是 jTidy 不解析自定义标签。

<html>
  <body>
    <myCustomTag>some text</myCustomTag>
    <anotherCustom>more text</anotherCustom>
  </body>
</html>

我无法在自定义标签之间获取文本。我必须使用 jTidy,因为我将使用 xpath。

我试过 HTMLCleaner,但它不支持完整的 xpath 函数。

最佳答案

您还可以使用 Java Properties 对象设置属性,例如:

import java.util.Properties;
Properties oProps = new Properties();
oProps.setProperty("new-blocklevel-tags", "header hgroup article footer nav");

Tidy tidy = new Tidy();
tidy.setConfigurationFromProps(oProps);

这应该让您不必创建和加载配置文件。

关于html - 如何向 JTidy 添加新标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8976637/

相关文章:

javascript - 使用 node.js 渲染 html

javascript - 垂直扩展元素以填充父元素的剩余空间

c# - C# 或一般 .Net 中的 C 解析器

java - 如何删除 XML 中作为 XML 消息一部分的 < 和 >

java - 使用 JTidy 解析链接

html - 使多个后台在 IE 上工作

javascript - Node 和/或套接字 io 多人打地鼠

javascript - 使用 jquery .parseJSON 或 JSON.parse : how to remove quotes from function calls for formatters? 解析 JSON 以与 Highcharts 一起使用

python - 解析 nmap 结果

java - 如何在java中设置文档对象的解析持续时间限制