java - 文本处理 - 检测您是否位于 Java 中的 HTML 标记内

我有一个程序，可以根据同一文档上的信息(没有 html 信息)对 html 格式的文档进行文本处理。我基本上是在未格式化的文档中找到一个单词或短语，然后在格式化的文档中找到相应的单词，并使用 HTML 标签更改单词或短语的外观以使其突出(例如，将其加粗或更改其颜色)。

这是我的问题。有时，我想对可能是 html 标签一部分的单词或短语进行格式化(例如，我可能想对单词“font”进行一些格式化，但前提是该单词不在 html 标签内) 。有没有一种简单的方法来检测字符串是否是文本 block 中 html 标签的一部分？

顺便说一句，我不能只删除文档中的 html 标签并对剩余文本进行处理，因为我需要保留结果中的 html。我需要添加到现有的 html 中，但我需要可靠地区分属于标签的字符串和不属于标签的字符串。

有什么想法吗？

谢谢，

埃利奥特

最佳答案

你可以做一些事情

第一个可能是最快和最简单的，但第二个会更可靠。

关于java - 文本处理 - 检测您是否位于 Java 中的 HTML 标记内，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5601470/