我想从文本中删除所有 html 标签。 但我不想使用任何 dom 库解析整个文档,因为创建 dom 树会影响性能,因为我不关心结构。
有没有什么快速有效的方法可以将 html 转换为纯文本?
最佳答案
如果您不需要内存中的 DOM 树,请使用带有 SAX 接口(interface)的解析器。不过请注意,一些真实世界的 HTML 可能需要容错解析。
关于c++ - 在不解析 C++ 的情况下将 html 转换为纯文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5057348/