weka - ARFF (Weka) 中的缺失值

标签 weka decision-tree arff

Weka 中的分类器(例如决策树)将如何解释“?” (表示 ARFF 文件中的缺失值)在学习阶段? Weka 会用一些预定义的值(例如“0”或“false”)替换它,还是会以某种方式影响训练过程?

最佳答案

除了将缺失值单独视为属性值外,在 J48 分类器的情况下,对具有缺失值的属性的任何拆分都将使用与观察到的非缺失值的频率成比例的权重来完成。 Witten 和 Frank 的教科书Data Mining Practical Machine Learning Tools and Techniques(2005 年,第 2 版,第 63 页和第 191 页)中对此进行了记录,他们随后报告说

eventually, the various parts of the instance will each reach a leaf node, and the decisions at these leaf nodes must be recombined using the weights that have percolated to the leaves.

有关处理决策树中缺失值的更多信息,例如 CART 中的代理拆分(与 C4.5 或其后继 J48 相反),请参见 Classification Trees 的维基部分。 ;插补的使用也在几篇文章中进行了讨论,例如Handling missing data in trees: surrogate splits or statistical imputation .

关于weka - ARFF (Weka) 中的缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6017401/

相关文章:

algorithm - 什么是朴素贝叶斯属性 : useKernelEstimator and useSupervisedDiscretization

java - 如何使用 weka 规范化实例

java - 多波段图像光栅到 RGB

machine-learning - 在 Weka 中对单实例进行分类

python - 如何导入预定义的决策树并将其用于分类

python - 将预测映射回 ID - Python Scikit Learn DecisionTreeClassifier

python - VotingClassifier 中的 roc_auc,scikit-learn (sklearn) 中的 RandomForestClassifier

machine-learning - WEKA - arff 格式的向量属性

python - 从 python 输出创建 ARFF 文件

java - 使用 WEKA API 为聚类定义输入数据