python - 使用 Hadoop 流式处理线程

我正在使用 Hadoop 流来编写基于 python 的 HTML 抓取器。我发现运行单线程 python 脚本很慢。我想将其修改为多线程版本。有谁知道将映射器中的线程数设置为一个好的数字。我不确定集群中每个节点的规范，但我认为它至少支持两个线程。

最佳答案

我尝试在 python 中使用线程，全局解释器锁存在问题。移植代码以使用多处理模块，内部 hadoop 分配与集群中的内核一样多的映射器，因此如果您需要加速，多处理不是要走的路。如果执行得当，多线程可能会带来一些加速

关于python - 使用 Hadoop 流式处理线程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18087121/

相关文章：

python - 这个 Pandas 警告从何而来？