java - 我应该使用什么 html 解析器?

标签 java tag-soup jericho-html-parser crawler4j

我正在开发一个需要解析 HTML 文档的产品。我寻找了 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML,因为我需要使用quartz 在多线程环境中运行此过程?

如果内存中同时运行 10 个线程,那么我需要一个消耗更少内存的 API。在 jericho 中,我在某处读到它是基于文本的搜索 API,并且消耗更少的内存。我对吗?或者我应该去别的地方,为什么?

最佳答案

测试它们并检查它们的内存占用。如果不知道和测试您要解析的 HTML,就很难对内存配置文件进行预测。

FFIW,我在许多不同的系统中使用过 Jsoup,我发现它工作得非常好。我也从未注意到它有任何严重的内存问题。

关于java - 我应该使用什么 html 解析器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12368834/

相关文章:

java - 如何在 Java 中使用 Jericho 解析源中的所有链接,同时过滤或忽略具有特定 id 的元素?

java - 如何使用 PrintWriter 从路径创建丢失的文件夹?

java套接字编程问题(发送和接收数据)

java - JDOM 1.1 : hyphen is not a valid comment character

java - 如何使用 Jericho HTML 解析器获取特定标签之间的文本和其他标签?

java - 从 JBoss 4.2 迁移时出现 JBoss wildfly 10 NoClassDefFoundError

java - Apache Shiro 和新手 Java 安全

Java 对某些数组类型的对象引用有很好的 toString

jaxb - 如何在 HTML 中使用 JAXB?

html - 点TagSoup Parser使用HTML5版本