python - 在 hadoop 上的一个流作业中使用多个映射器输入?

标签 python hadoop streaming

在java中我会使用:

MultipleInputs.addInputPath(conf, path, inputFormatClass, mapperClass)

添加多个输入,每个输入使用不同的映射器。

现在我正在使用python在hadoop中编写流式作业,可以完成类似的作业吗?

最佳答案

您可以使用多个-input选项来指定多个输入路径:

hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...

关于python - 在 hadoop 上的一个流作业中使用多个映射器输入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12180791/

相关文章:

python - 如何在Python中获取整个3d线性函数的长度?

hadoop - Oozie 工作流、协调器和 bundle 之间有什么区别

c++ - 循环流式传输 .ogg 音频 - OpenAL

python - 级数计算精度

python - 如何获取列表中特定对象的长度

c++ - 套接字程序 Python vs C++ (Winsock)

r - 如何检查Hadoop集群上是否安装了R client?

sql - 如何使用命令行工具在Ambari/Zeplin上运行sql查询?

带有请求管道的 Python HTTP 客户端

android - "Battery saver"功能终止我的音乐服务