我需要为特定内容(几行几乎相同的文本)解析/阅读大量 HTML 网页(100+)。
我使用带有 reg 的扫描仪对象。表达式和 jsoup 及其 html 解析器。
这两种方法都很慢,使用 jsoup 时出现以下错误: java.net.SocketTimeoutException: 读取超时(多台计算机不同连接)
还有更好的吗?
编辑:
既然我已经开始使用 jsoup,我想一个更好的问题是如何加快它的速度?
最佳答案
您是否尝试延长 JSoup 的超时时间?我相信默认情况下只有 3 秒。参见例如this .
关于java - 用 Java 解析 HTML 网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6687948/