ruby - Ruby 中的网络爬虫 : How to achieve the best perfomance?

我正在编写一个应该能够同时解析多个页面的网络爬虫。我使用 Nokogiri 进行解析，这非常好，可以解决我所有的任务，但我不知道如何获得更好的性能。

我使用线程同时发出许多 open-uri 请求，这使处理速度更快，但似乎距离我可以从单个服务器实现的潜力还很远。我应该使用多个进程吗？单个 ruby 应用程序可以启动的线程和进程的限制是什么？

换句话说:如何在这种情况下实现最佳性能。

最佳答案

我很喜欢Typhoeus and Hydra一次处理多个请求。

Typhoeus是http客户端，Hydra是处理多个请求的部分。这些示例很好，请通读一下。

关于ruby - Ruby 中的网络爬虫 : How to achieve the best perfomance?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4687825/