java - 用 Java 解析 HTML 网页

我需要为特定内容(几行几乎相同的文本)解析/阅读大量 HTML 网页(100+)。

我使用带有 reg 的扫描仪对象。表达式和 jsoup 及其 html 解析器。

这两种方法都很慢，使用 jsoup 时出现以下错误: java.net.SocketTimeoutException: 读取超时(多台计算机不同连接)

还有更好的吗？

编辑:

既然我已经开始使用 jsoup，我想一个更好的问题是如何加快它的速度？

最佳答案

您是否尝试延长 JSoup 的超时时间？我相信默认情况下只有 3 秒。参见例如this .

关于java - 用 Java 解析 HTML 网页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6687948/

相关文章：

java - 处理包含撇号的大字符串 SQL