我有一个程序,可以根据同一文档上的信息(没有 html 信息)对 html 格式的文档进行文本处理。我基本上是在未格式化的文档中找到一个单词或短语,然后在格式化的文档中找到相应的单词,并使用 HTML 标签更改单词或短语的外观以使其突出(例如,将其加粗或更改其颜色)。
这是我的问题。有时,我想对可能是 html 标签一部分的单词或短语进行格式化(例如,我可能想对单词“font”进行一些格式化,但前提是该单词不在 html 标签内) 。有没有一种简单的方法来检测字符串是否是文本 block 中 html 标签的一部分?
顺便说一句,我不能只删除文档中的 html 标签并对剩余文本进行处理,因为我需要保留结果中的 html。我需要添加到现有的 html 中,但我需要可靠地区分属于标签的字符串和不属于标签的字符串。
有什么想法吗?
谢谢,
埃利奥特
最佳答案
你可以做一些事情
- 为您正在做的事情编写一个正则表达式。您可以在 Google 上找到大量预先编写的内容
- 找到一个库来解析文档(例如 http://htmlparser.sourceforge.net/ )并仅替换文本
第一个可能是最快和最简单的,但第二个会更可靠。
关于java - 文本处理 - 检测您是否位于 Java 中的 HTML 标记内,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5601470/