hadoop - 在 Hadoop 上并行化执行决策树 ID3/C4.5

标签 hadoop parallel-processing decision-tree id3 c4.5

我想在 Hadoop 上实现决策树 ID3/C4.5。任何人都可以知道如何继续。

我很清楚这些算法,但我需要知道如何并行化它们。

最佳答案

我会考虑将属性选择的一次迭代作为一项 MapReduce 作业的方法。按照这个想法,您可以将属性分配给每个映射器以检查信息增益,并且在减少阶段(使用单个减少器)您可以选择最佳属性。
如果在一台机器上(在所有属性上)计算单次迭代的时间比作业开始的开销稍长——大约 20-40 秒,我会认为这种方法是可行的。

关于hadoop - 在 Hadoop 上并行化执行决策树 ID3/C4.5,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12890133/

相关文章:

java - Gradle 任务在应该并行运行时却没有并行运行

c# - 将数百万个项目从一个存储帐户移动到另一个存储帐户

php - 在数据库中应用决策树

c# - 生成决策树的库

python - sklearn 中 DecisionTreeRegressor 的自定义标准

Hadoop复制一个目录?

java - Hadoop分布式缓存以处理大型查找文本文件

java - hdfs中的文件路径

hadoop - Hive 命令执行 NOT IN 子句

multithreading - 如何以线程安全的方式停止正在运行的任务?