r - 信息增益测量显示什么？

标签 r machine-learning data-mining data-modeling

我正忙于使用 r 中的 fSelector 包来使用 information.gain 函数来测量信息增益。

我不确定输出会给我带来什么，因为存在缺点，我了解 iris 数据集的输出。

weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df

输出为:

attr_importance
age                           0.000000e+00
max_stake_scale               0.000000e+00
current_loyalty_status        2.968854e-04
lifespan                      1.523364e-02
early_hours                   0.000000e+00
morning                       0.000000e+00
afternoon                     0.000000e+00
evening                       0.000000e+00

响应变量是二元的，交叉与否，是或否。我不确定重要的功能是什么。

谢谢

最佳答案

信息增益告诉您通过了解特定功能的值(value)获得了多少信息。对于二元分类问题，您需要 1 位信息来进行分类(因为有两种可能的结果)；即特定特征的最大信息增益为1。

在您的情况下，几乎所有特征的信息增益都是 0，这意味着了解它们的值对于确定数据属于哪个类根本没有帮助。非零值表示最重要的(尽管仍然没有提供任何信息)特征——lifespan和current_loyalty_status。减号只是指数表示法的一部分，即 2.968854e-04 表示 2.968854 * 10^-4 或 0.0002968854。

关于r - 信息增益测量显示什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31945999/

上一篇：machine-learning - ELKI中DBSCAN MinPts参数的含义

下一篇：Python 神经网络准确性 - 正确的实现？

xcode - OS X Mavericks 上的 RcppArmadillo 编译错误

r - dataTableOutput 顶部和底部的空 "row-fluid"div

python - Tensorflow 将 tf.Variable 数组格式化为字符串作为另一个文件中的输入

python-3.x - 如何在管道中使用适当的 FunctionTransformer 制作 GridSearchCV？

machine-learning - 网络上是否有任何有用的数据集可用于数据挖掘？

r - 为什么两个 data.frames 与 lubridate 区间变量的一对多合并会产生 NA 的区间？

machine-learning - 用于文档分类、阈值检测的质心算法

hadoop - 基于 Web 的可视化工具直接从 hive 中提取大型数据集

python - Pandas - 计数项目