我正在使用 Hadoop 流来编写基于 python 的 HTML 抓取器。我发现运行单线程 python 脚本很慢。我想将其修改为多线程版本。有谁知道将映射器中的线程数设置为一个好的数字。我不确定集群中每个节点的规范,但我认为它至少支持两个线程。
最佳答案
我尝试在 python 中使用线程,全局解释器锁存在问题。移植代码以使用多处理模块,内部 hadoop 分配与集群中的内核一样多的映射器,因此如果您需要加速,多处理不是要走的路。如果执行得当,多线程可能会带来一些加速
关于python - 使用 Hadoop 流式处理线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18087121/