c++ - 在不解析 C++ 的情况下将 html 转换为纯文本?

标签 c++ html-parsing

我想从文本中删除所有 html 标签。 但我不想使用任何 dom 库解析整个文档,因为创建 dom 树会影响性能,因为我不关心结构。

有没有什么快速有效的方法可以将 html 转换为纯文本?

最佳答案

如果您不需要内存中的 DOM 树,请使用带有 SAX 接口(interface)的解析器。不过请注意,一些真实世界的 HTML 可能需要容错解析。

关于c++ - 在不解析 C++ 的情况下将 html 转换为纯文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5057348/

相关文章:

java - Jsoup eq 选择器没有返回值

python - 无法使用 beautifulsoup 解析 python 中的 HTML

python - 用 python 替换 HTML 中的粗体标题

c++ - QT (C++) 中的简单声音 (.wav) 播放应用程序

c++ - 如何在本地重新定义 boost::shared_ptr?

PHP DOMDocument 解析 HTML

python - 使用 beautifulsoup 提取 <br> 之间的文本,但没有下一个标签

c++ - OpenCV - 缺少 dll?

c++ - 尝试使用 Android-NDK 生成 so 文件时,未在此范围内声明“runtime_error”

c++ - 有没有一种方法可以将std::make_unique与指定给函数的不同类一起传递