java - 我应该使用什么 html 解析器？

我正在开发一个需要解析 HTML 文档的产品。我寻找了 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML，因为我需要使用quartz 在多线程环境中运行此过程？

如果内存中同时运行 10 个线程，那么我需要一个消耗更少内存的 API。在 jericho 中，我在某处读到它是基于文本的搜索 API，并且消耗更少的内存。我对吗？或者我应该去别的地方，为什么？

最佳答案

测试它们并检查它们的内存占用。如果不知道和测试您要解析的 HTML，就很难对内存配置文件进行预测。

FFIW，我在许多不同的系统中使用过 Jsoup，我发现它工作得非常好。我也从未注意到它有任何严重的内存问题。

关于java - 我应该使用什么 html 解析器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12368834/