java - 文本处理 - 检测您是否位于 Java 中的 HTML 标记内

标签 java text html-parsing

我有一个程序,可以根据同一文档上的信息(没有 html 信息)对 html 格式的文档进行文本处理。我基本上是在未格式化的文档中找到一个单词或短语,然后在格式化的文档中找到相应的单词,并使用 HTML 标签更改单词或短语的外观以使其突出(例如,将其加粗或更改其颜色)。

这是我的问题。有时,我想对可能是 html 标签一部分的单词或短语进行格式化(例如,我可能想对单词“font”进行一些格式化,但前提是该单词不在 html 标签内) 。有没有一种简单的方法来检测字符串是否是文本 block 中 html 标签的一部分?

顺便说一句,我不能只删除文档中的 html 标签并对剩余文本进行处理,因为我需要保留结果中的 html。我需要添加到现有的 html 中,但我需要可靠地区分属于标签的字符串和不属于标签的字符串。

有什么想法吗?

谢谢,

埃利奥特

最佳答案

你可以做一些事情

  • 为您正在做的事情编写一个正则表达式。您可以在 Google 上找到大量预先编写的内容
  • 找到一个库来解析文档(例如 http://htmlparser.sourceforge.net/ )并仅替换文本

第一个可能是最快和最简单的,但第二个会更可靠。

关于java - 文本处理 - 检测您是否位于 Java 中的 HTML 标记内,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5601470/

相关文章:

java - 如何在android中调用方法后恢复xml状态

java - 添加到计时器中的变量

c++ - C++ 中的简单文本菜单

java - HashMap ,无序键

python - 将 root.xpath() 与正则表达式一起应用会返回 lxml.etree._ElementUnicodeResult

Java 鼓组项目

java - 为什么 Java 客户端在运行时需要 WSDL?

css - 规范化位于底部的字符位置

Java Html 解析器提取特定数据?

java - 转换和验证来自不受信任来源的 url