Java 解析器 HTML 使用纯字符串方法?

标签 java html string parsing document

这是个好主意吗?嗯,我使用过其他第 3 方库,如 JSoup,它工作得很好,但对于这个项目来说它是不同的。当您只想从中获取一项时,加载和解析整个文档是否值得?有些html页面也很简单,所以我也可以使用String方法。原因是内存会成为一个问题,并且加载文档也需要一些时间。解析 XML 时,我总是使用 SAX 解析器,因为它不会将其加载到内存中,而且速度很快。我可以在 html 文档上使用同样的东西吗?或者已经有这样的东西了吗?因此,如果有一个非 DOM HTML 轻量级解析器,那就太好了。

最佳答案

如果 HTML 符合 XML(即 XHTML),那么您可以使用标准 SAX 解析器。在这里您可以找到可供选择的 Java HTML 解析器列表:http://java-source.net/open-source/html-parsers 。 HotSax 可能会处理您的所有用例。

关于Java 解析器 HTML 使用纯字符串方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9401148/

相关文章:

string - 短语字谜的高效算法

html - XPath 表达式 : Select elements between A HREF ="expr" tags

html - 更改屏幕阅读器自定义无序列表字符的标签

python - 使用 python 从列表中的字符串中删除最后两个字符

JavaFX 扩展图

html - 单选按钮上的图像不起作用

mysql - 将额外的列添加到具有常量值的 sql 查询结果

java - 如何保证我的 Android SurfaceView 是透明的而不是黑色的?

java - 使用谓词的通用集合过滤

获取数据时 Java 与 SQL