r - 信息增益测量显示什么?

标签 r machine-learning data-mining data-modeling

我正忙于使用 r 中的 fSelector 包来使用 information.gain 函数来测量信息增益。

我不确定输出会给我带来什么,因为存在缺点,我了解 iris 数据集的输出。

weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df

输出为:

attr_importance
age                           0.000000e+00
max_stake_scale               0.000000e+00
current_loyalty_status        2.968854e-04
lifespan                      1.523364e-02
early_hours                   0.000000e+00
morning                       0.000000e+00
afternoon                     0.000000e+00
evening                       0.000000e+00

响应变量是二元的,交叉与否,是或否。我不确定重要的功能是什么。

谢谢

最佳答案

信息增益告诉您通过了解特定功能的值(value)获得了多少信息。对于二元分类问题,您需要 1 位信息来进行分类(因为有两种可能的结果);即特定特征的最大信息增益为1。

在您的情况下,几乎所有特征的信息增益都是 0,这意味着了解它们的值对于确定数据属于哪个类根本没有帮助。非零值表示最重要的(尽管仍然没有提供任何信息)特征——lifespancurrent_loyalty_status。减号只是指数表示法的一部分,即 2.968854e-04 表示 2.968854 * 10^-40.0002968854

关于r - 信息增益测量显示什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31945999/

相关文章:

r - 需要将 data.table 列的值从 "Yes","No"更改为 1,0

xcode - OS X Mavericks 上的 RcppArmadillo 编译错误

r - dataTableOutput 顶部和底部的空 "row-fluid"div

python - Tensorflow 将 tf.Variable 数组格式化为字符串作为另一个文件中的输入

python-3.x - 如何在管道中使用适当的 FunctionTransformer 制作 GridSearchCV?

machine-learning - 网络上是否有任何有用的数据集可用于数据挖掘?

r - 为什么两个 data.frames 与 lubridate 区间变量的一对多合并会产生 NA 的区间?

machine-learning - 用于文档分类、阈值检测的质心算法

hadoop - 基于 Web 的可视化工具直接从 hive 中提取大型数据集

python - Pandas - 计数项目