java - 我应该能够同时打开多少个 Java HttpURLConnection?

标签 java web-crawler screen-scraping

我正在编写一个多线程 Java 网络爬虫。根据我对网络的了解,当用户加载网页时,浏览器会请求第一个文档(例如,index.html),并且当它收到 HTML 时,它会找到需要包含的其他资源(图像、CSS、JS) ) 并同时请求这些资源。

我的爬虫只请求原始文档。出于某种原因,我无法让它每 5 秒抓取超过 2 到 5 页。我正在为我创建的每个 HttpURLConnection 创建一个新线程。看起来我应该能够至少每秒抓取 20-40 页。如果我尝试启动 100 个线程,我会疯狂地收到 I/O 异常。知道发生了什么事吗?

最佳答案

查看您的代码是个好主意,因为您可能做了一些轻微的错误并破坏了您的爬虫,但根据一般经验,执行异步 IO 远优于 HttpURLConnection 提供的阻塞 IO。异步 IO 允许您在单个线程中处理所有处理,所有实际 IO 均由操作系统在其自己的时间完成。

要通过异步 IO 很好地实现 HTTP 协议(protocol),请查看 Apache's HTTP core .查看此类客户端的示例 here .

关于java - 我应该能够同时打开多少个 Java HttpURLConnection?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1381804/

相关文章:

python - Docker Selenium Chromedriver : Unfortunately, 自动访问此页面被拒绝

java - Jsoup 返回状态 400

python - 使用 selenium 向下滚动谷歌评论

java - NetBeans 线程 "main"java.lang.NoClassDefFoundError 中出现异常

java - 访问枚举变量的私有(private)成员?

web-crawler - 爬取需要认证的网站

algorithm - 检测网页抓取的方法

python - 使用请求和BeautifulSoup获取Youtube视频标题有时会出错,有时会起作用(Python)

java - 使用 Apache PDFBOX 创建网页的 pdf

java - 将第三方库与 netbeans 结合使用