java - 用 Java 解析 HTML 网页

标签 java html parsing jsoup

我需要为特定内容(几行几乎相同的文本)解析/阅读大量 HTML 网页(100+)。

我使用带有 reg 的扫描仪对象。表达式和 jsoup 及其 html 解析器。

这两种方法都很慢,使用 jsoup 时出现以下错误: java.net.SocketTimeoutException: 读取超时(多台计算机不同连接)

还有更好的吗?

编辑:

既然我已经开始使用 jsoup,我想一个更好的问题是如何加快它的速度?

最佳答案

您是否尝试延长 JSoup 的超时时间?我相信默认情况下只有 3 秒。参见例如this .

关于java - 用 Java 解析 HTML 网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6687948/

相关文章:

java - 处理包含撇号的大字符串 SQL

java - 通过代理从 java 发送电子邮件

javascript - 得到以下错误 : RGB. js :16 Uncaught TypeError: Cannot read property 'add' of undefined at HTMLButtonElement. <anonymous> (RGB.js:16)

python - 将二元运算符添加到 z3

c - 根据空格或 "double quotes strings"将字符串解析为数组

具有可变数学运算符的 Python if 语句

java - 致命异常 : main java. lang.RuntimeException:无法启动 Activity

java - 如何从另一个 Map 对象 Java 中提取 Map 对象

jquery - 给一个 "text-align: center"的 div 一个 "text-align: left"仅用于包装内容

html - 小图像上的工具提示