java - 在 Hadoop 中映射和减少类属性

标签 java hadoop parallel-processing

所以,我是 Hadoop 的新手,我有一个关于 hadoop 如何处理 Reducer 或 Mapper 类实现的属性的问题。

据我了解,reducer 的每个实例将在不同的 JVM 中执行,因此它们之间没有共享内存。问题是,如果所有 reducer 都试图访问它,Hadoop 如何处理对在 reducer 函数外部定义的属性的并发访问。更重要的是,如果我尝试在 reducer 中实例化一个变量会发生什么。根据我对并行编程的理解,如果这种操作不是在临界区或原子变量上进行的,就会出现竞争条件。

一个简短的例子:

public class SequenceBuilderRed extends Reducer<Text, Text, Text, IntWritable> 
{
    private HashMap<String,myClass> myHashMap;
    protected void setup(Reducer<Text,Text,Text,IntWritable>.Context context) throws IOException, Interrupted Exception
    {
         myHashMap=new HashMap<String,myClass>();
    }

    protected void reduce(Text key Iterable<Text> values, Reducer <Text,Text,Text,IntWritable>.Context context) throws IOException, InterruptedException 
    {
       for(Text value:values)
       {
          if(!myHashMap.containsKey(value.toString())
          {
              myClass newObject = new myClass();
              myHashMap.put(value.toString(),newObject);
          }
       }
     }
}

在这种情况下,如果有不同的 reducer 具有相同的 Text 作为值,会发生什么情况?

谢谢!

最佳答案

From what I understand, each of the instances of the reducer will be executed in a different JVM, then, there is no shared memory in between them.

是的,Mapper 和 Reducer 的每个实例都将根据数据局部性在不同的 JVM 中执行,通常在不同的机器上。因此,它们基于无共享架构。

The question is, how Hadoop handle the concurrent access to an attribute defined outside the reducer function, if all the reducers are trying to access it.

Hadoop 不允许在一个 Mapper/Reducer 类中定义的属性在多个 Mapper/Reducer JVM 实例之间共享。这意味着如果您在 Mapper/Reducer 类中指定了一个变量,就像您的示例 myHashMap 将可以从它自己的 JVM 中访问,例如,如果您的工作需要 10 个 Reducer,那么每个 Reducer实例将创建它自己的 HashMap

进一步说明,reduce() 方法不是并发方法,而是在单个 Reducer JVM 实例中顺序执行,因此您的 HashMap 不会被并发访问.

因此,如果您的作业需要 10 个 Reducer 实例,那么将它们放在一起,那么其中 10 个 Reducer 可以根据您的集群容量同时运行,每个 Reducer 实例都可以访问自己的变量,并且每个 Reducer 实例将迭代其要处理的键范围,然后依次为每个键和值列表调用 reduce() 方法。

希望澄清事情。

关于java - 在 Hadoop 中映射和减少类属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27256336/

相关文章:

java - 如何修复 Android 聊天中 ListView 中的此错误

java - 从位于另一个类中的 JButton 的 actionPerformed 更改 JTextArea 文本

java - 一切正常,但仍然出现 -> 类型 Dynamic Web Module 4.0 需要 Java 1.8 或更高版本

php - 阅读前 100 行

hadoop - Map reduce 合并两个没有相同键的文件

Java Enum 的优势

hadoop - greenplum hadoop在greenplum中如何配置生成gphdfs.so

kotlin - 如何在kotlin中实现序列的并行映射

r - 并行化随机森林

c++ - 快速计算许多标量积