在java中我会使用:
MultipleInputs.addInputPath(conf, path, inputFormatClass, mapperClass)
添加多个输入,每个输入使用不同的映射器。
现在我正在使用python在hadoop中编写流式作业,可以完成类似的作业吗?
最佳答案
您可以使用多个-input选项来指定多个输入路径:
hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...
关于python - 在 hadoop 上的一个流作业中使用多个映射器输入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12180791/