我想在 Hadoop
上实现决策树 ID3/C4.5
。任何人都可以知道如何继续。
我很清楚这些算法,但我需要知道如何并行化它们。
最佳答案
我会考虑将属性选择的一次迭代作为一项 MapReduce 作业的方法。按照这个想法,您可以将属性分配给每个映射器以检查信息增益,并且在减少阶段(使用单个减少器)您可以选择最佳属性。
如果在一台机器上(在所有属性上)计算单次迭代的时间比作业开始的开销稍长——大约 20-40 秒,我会认为这种方法是可行的。
关于hadoop - 在 Hadoop 上并行化执行决策树 ID3/C4.5,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12890133/