java - 我应该能够同时打开多少个 Java HttpURLConnection？

我正在编写一个多线程 Java 网络爬虫。根据我对网络的了解，当用户加载网页时，浏览器会请求第一个文档(例如，index.html)，并且当它收到 HTML 时，它会找到需要包含的其他资源(图像、CSS、JS) ) 并同时请求这些资源。

我的爬虫只请求原始文档。出于某种原因，我无法让它每 5 秒抓取超过 2 到 5 页。我正在为我创建的每个 HttpURLConnection 创建一个新线程。看起来我应该能够至少每秒抓取 20-40 页。如果我尝试启动 100 个线程，我会疯狂地收到 I/O 异常。知道发生了什么事吗？

最佳答案

查看您的代码是个好主意，因为您可能做了一些轻微的错误并破坏了您的爬虫，但根据一般经验，执行异步 IO 远优于 HttpURLConnection 提供的阻塞 IO。异步 IO 允许您在单个线程中处理所有处理，所有实际 IO 均由操作系统在其自己的时间完成。

要通过异步 IO 很好地实现 HTTP 协议(protocol)，请查看 Apache's HTTP core .查看此类客户端的示例 here .

关于java - 我应该能够同时打开多少个 Java HttpURLConnection？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1381804/