我正忙于使用 r 中的 fSelector
包来使用 information.gain 函数来测量信息增益。
我不确定输出会给我带来什么,因为存在缺点,我了解 iris 数据集的输出。
weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df
输出为:
attr_importance
age 0.000000e+00
max_stake_scale 0.000000e+00
current_loyalty_status 2.968854e-04
lifespan 1.523364e-02
early_hours 0.000000e+00
morning 0.000000e+00
afternoon 0.000000e+00
evening 0.000000e+00
响应变量是二元的,交叉与否,是或否。我不确定重要的功能是什么。
谢谢
最佳答案
信息增益告诉您通过了解特定功能的值(value)获得了多少信息。对于二元分类问题,您需要 1 位信息来进行分类(因为有两种可能的结果);即特定特征的最大信息增益为1。
在您的情况下,几乎所有特征的信息增益都是 0,这意味着了解它们的值对于确定数据属于哪个类根本没有帮助。非零值表示最重要的(尽管仍然没有提供任何信息)特征——lifespan
和current_loyalty_status
。减号只是指数表示法的一部分,即 2.968854e-04
表示 2.968854 * 10^-4
或 0.0002968854
。
关于r - 信息增益测量显示什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31945999/