hadoop - 控制中间体导致Hadoop

标签 hadoop mapreduce hadoop-streaming hadoop-partitioning hadoop2

我想用hadoop控制Map和Reduce之间的中间结果。
我想指定在 map 后将这些结果复制到哪里。
我会选择将减少的数据。
总而言之,我希望 map 的结果在流程洗牌和排序之前能做什么
我想要。
如果您有解决方案,请告诉我。

谢谢

最佳答案

您可以在特定的映射器获得InputSplit之后处理数据。在map函数中指定逻辑。

  • I would want to specify where copy these results after the Map



    使用Context Java类和FileSystem在FS上刷新结果
    (本地,hdfs,ftp等)
  • I would to choose data which will be reduced

    i want map's results before process shuffle and sort and do what i want



    map
  • 中的Mapper函数上指定逻辑

    关于hadoop - 控制中间体导致Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24451732/

    相关文章:

    php - 具有实时余额更新的大批量交易的最佳实践

    hadoop - Reducer个数的逻辑

    hadoop - 设置job.setInputFormatClass时出错

    java - 预期为BEGIN_OBJECT,但在第1行第6列处为STRING

    python - 如何在 OS X 上运行 Hadoop?

    python - 如何使用 python 在 hadoop 流作业中使用文件?

    java - 用于在 hdfs 中列出目录的主机和端口

    java - HDFS - 加载大量文件

    Hadoop - 需要基本 + 流式指导

    hadoop - 主节点如何启动hadoop集群中的所有进程?