python - hadoop-streaming:作业完成后自动进行后处理吗？

标签 python mongodb hadoop mapreduce hadoop-streaming

Step 1- I have a hadoop streaming job that takes variable time based on amount of data to process Step 2- Once the job is done, I need to import all that data dump into mongodb and create a flat csv file out of it

问题
有什么方法可以使用hadoop流将步骤2粘贴到步骤1，并避免手动执行步骤2？

最佳答案

我建议使用https://github.com/Yelp/mrjob或https://github.com/klbostee/dumbo之类的东西。专门用于mrjob和您的问题http://packages.python.org/mrjob/job.html#writing-multi-step-jobs

关于python - hadoop-streaming:作业完成后自动进行后处理吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9994724/

上一篇：junit - HBase单元测试使用HBaseTestingUtility抛出InstanceAlreadyExistsException

下一篇：java - 运行一个简单的代码Mapreduce

python 节俭错误 ```TSocket 读取 0 个字节 ```

java - 创建 FlumeDStream java.net.BindException : Cannot assign requested address 时在 yarn 错误上进行 Spark 流式传输

java - 使用分布式缓存将文件目录添加到 Hadoop？

hadoop - 请求的行超出 HRegion 上 doMiniBatchMutation 的范围

使用 Pip 安装 Python Scikit-image 失败

python - 如何使用稳态概率在Python代码的每次迭代中选择一个状态？

php - 在 Laradock 应用程序中找不到类 'MongoId'

mongodb - 如何计算mongodb聚合中数组内的统计信息？

python - 修改属性在MongoDB中的显示顺序