r - 关于 e1071 R 包中朴素贝叶斯算法的查询

下面是我在 R 中用于朴素贝叶斯实现的训练数据集(使用 e1071 包)，其中:X、Y、Z 是不同的类，V1、V2、V3、V4、V5 是属性:-

Class   V1  V2  V3  V4  V5
X       Yes Yes No  Yes Yes
X       Yes Yes No  No  Yes
X       Yes Yes No  No  Yes
X       Yes Yes No  No  Yes
X        No Yes No  No  Yes
X        No Yes No  No  Yes
X        No Yes No  No  Yes
X        No No  No  No  No
X        No No  No  No  No
X        No No  No  No  No
X        No No  No  No  No
X        No No  No  No  No
X        No No  No  No  No
X        No No  No  No  No
X        No No  No  No  No
X        No No  No  No  No
Y       Yes Yes Yes No  Yes
Y        No No  No  No  Yes
Y        No No  No  No  Yes
Y        No No  No  No  No
Y        No No  No  No  No
Y        No No  No  No  No
Y        No No  No  No  No
Z        No Yes Yes No  Yes
Z        No No  No  No  Yes
Z        No No  No  No  Yes
Z        No No  No  No  No
Z        No No  No  No  No
Z        No No  No  No  No
Z        No No  No  No  No

上述数据集的先验概率为 X->0.5333333 Y->0.2333333 Z->0.2333333

条件概率是:-

V1
Y          No       Yes
   X 0.7500000 0.2500000
   Y 0.8571429 0.1428571
   Z 1.0000000 0.0000000

V2
Y          No       Yes
   X 0.5625000 0.4375000
   Y 0.8571429 0.1428571
   Z 0.8571429 0.1428571

V3
 Y          No       Yes
   X 1.0000000 0.0000000
   Y 0.8571429 0.1428571
   Z 0.8571429 0.1428571

V4
 Y       No    Yes
   X 0.9375 0.0625
   Y 1.0000 0.0000
   Z 1.0000 0.0000

V5
 Y          No       Yes
   X 0.5625000 0.4375000
   Y 0.5714286 0.4285714
   Z 0.5714286 0.4285714

情况 1:- 未使用拉普拉斯平滑

我想找出 V3 属于哪个类，给定值 Yes。所以我的测试数据为:-

V3
Yes

所以，我必须找出每个类别的概率，即概率(X | V3 =是)，概率(Y | V3 =是)，概率(Z | V3 =是)并取三者中的最大值。现在，

概率(X| V3=是)= 概率(X) * 概率(V3=是|X)/P(V3)

从上面的条件概率我们知道 Probability(V3=Yes|X)=0 因此，概率 (X| V3=Yes) 应为 0，概率 (Y| V3=Yes)、概率 (Z| V3=Yes) 应分别为 0.5。

但是在 R 中输出是不同的。从 e1071 包中我使用了 naiveBayes 函数。下面是代码及其相应的输出:-

#model_nb<-naiveBayes(Class~.,data = train,laplace=0)
#results<-predict(model_nb,test,type = "raw")
#print(results)

#         X         Y         Z
#[1,] 0.5714286 0.2142857 0.2142857

有人可以解释一下为什么 R 中的输出是这样的吗？

情况 2:- 使用拉普拉斯平滑

与案例 1 相同的场景。测试数据，使用拉普拉斯的唯一区别是1。所以，我必须再次找出每个类别的概率，即概率(X | V3 =是)，概率(Y | V3 =是)，概率(Z | V3 =是) ) 并取三者中的最大值。

以下为拉普拉斯平滑后的条件概率(k=1)

V1
Y          No       Yes
   X 0.7222222 0.2777778
   Y 0.7777778 0.2222222
   Z 0.8888889 0.1111111

V2
Y          No       Yes
   X 0.5555556 0.4444444
   Y 0.7777778 0.2222222
   Z 0.7777778 0.2222222

V3
Y          No        Yes
   X 0.94444444 0.05555556
   Y 0.77777778 0.22222222
   Z 0.77777778 0.22222222

V4
Y          No       Yes
   X 0.8888889 0.1111111
   Y 0.8888889 0.1111111
   Z 0.8888889 0.1111111

V5
Y          No       Yes
   X 0.5555556 0.4444444
   Y 0.5555556 0.4444444
   Z 0.5555556 0.4444444

根据朴素贝叶斯定义，

概率(X| V3=是)= 概率(X) * 概率(V3=是|X)/P(V3)

概率(Y| V3=是)= 概率(Y) * 概率(V3=是|X)/P(V3)

概率(Z| V3=是)= 概率(Z) * 概率(V3=是|X)/P(V3)

经过计算，我有，

概率(X| V3=是)= 0.53 * 0.05555556/P(V3)=0.029/P(V3)

概率(Y| V3=是)= 0.23 * 0.22222222/P(V3)=0.051/P(V3)

概率(Z| V3=是)= 0.23 * 0.22222222/P(V3)=0.051/P(V3)

从上面的计算来看，Y类和Z类之间应该存在平局。但是在R中输出是不同的。 X 类显示为输出类。下面是代码及其相应的输出:-

#model_nb<-naiveBayes(Class~.,data = train,laplace=1)
#results<-predict(model_nb,test,type = "raw")
#print(results)


#        X         Y         Z
#[1,] 0.5811966 0.2094017 0.2094017

再次，有人可以解释一下为什么 R 中会有这样的输出吗？我的计算有什么地方出错了吗？

此外，需要解释一下拉普拉斯平滑完成后如何计算 P(V3)。

提前致谢!

最佳答案

问题在于您仅使用一个样本作为测试数据集，并且只有一个 V3 值。如果您提供更多的测试数据，您将获得合理/预期的结果(仅关注您的案例 1):

test <- data.frame(V3=c("Yes", "No"))
predict(model_nb, test, type="raw")
               X         Y         Z
[1,] 0.007936508 0.4960317 0.4960317
[2,] 0.571428571 0.2142857 0.2142857

请注意，对于 V3="Yes"，您不会得到精确的 0, 0.5, 0.5，因为该函数使用阈值 - 您可以调整该阈值，请执行 ?predict.naiveBayes 了解更多信息.

问题实际上是由于 predict.naiveBayes 的内部实现造成的(源代码位于 CRAN 存储库)。我不打算详细介绍所有细节，但基本上我已经调试了该功能，并且在某个步骤中有这一行，

newdata <- data.matrix(newdata)

稍后将决定使用哪一列条件概率。使用原始数据，data.matrix 如下所示:

data.matrix(data.frame(V3="Yes"))
     V3
[1,]  1

因此稍后假设条件概率取自第 1 列，即 V3="No"的值 1.0000000、0.8571429 和 0.8571429，这就是为什么您得到的结果就好像 V3 实际上是“No”一样。

但是，

data.matrix(data.frame(V3=c("Yes", "No")))
     V3
[1,]  2
[2,]  1

给出当 V3 为"is"时的条件概率的第 2 列，因此您会得到正确的结果。

我很确定您的案例 2 与此类似。

希望有帮助。

评论后编辑:我想解决这个问题的更简单方法是将所有数据放入一个 data.frame 中，然后选择用于训练/测试模型的索引。许多函数接受子集来选择用于训练的数据，naiveBayes也不异常(exception)。但是，对于 predict.naiveBayes 您必须选择索引。像这样的东西。

all_data <- rbind(train, c(NA, NA, NA, "Yes", NA, NA))
trainIndex <- 1:30
model_nb <- naiveBayes(Class~., data=all_data, laplace=0, subset=trainIndex)
predict(model_nb, all_data[-trainIndex,], type="raw")

给出了预期的结果。

               X         Y         Z
[1,] 0.007936508 0.4960317 0.4960317

请注意，这是有效的，因为在这种情况下，当您执行 data.matrix 操作时，您会得到正确的结果。

data.matrix(all_data[-trainIndex,])
   Class V1 V2 V3 V4 V5
31    NA NA NA  2 NA NA

评论后编辑2:有关为什么会发生这种情况的更多详细信息。

当您定义的 test 数据帧仅包含一个等于“否”的值时，data.matrix 执行的转换实际上无法知道您的变量 V3 有 2 个可能的值，"is"和“否”。 test$V3 实际上是一个因素:

test <- data.frame(V3="Yes")
class(test$V3)
[1] "factor"

正如所说，它只有一个级别(data.frame 无法知道实际上有 2 个级别)

levels(test$V3)
[1] "Yes"

data.matrix 的实现，如 docs 中所示，使用因子的水平:

Factors and ordered factors are replaced by their internal codes.

因此，当将 test 转换为 data.matrix 时，它会解释该因子只有一个可能的值并对其进行解码，

data.matrix(test)
     V3
[1,]  1

但是，当您将训练和测试放入同一数据框中时，因子级别就会正确定义。

levels(all_data$V3)
[1] "No"  "Yes"

如果您这样做，结果将是相同的:

test <- data.frame(V3=factor("Yes", levels=levels(all_data$V3)))
test
   V3
1 Yes
levels(test$V3)
[1] "No"  "Yes"
data.matrix(test)
     V3
[1,]  2

关于r - 关于 e1071 R 包中朴素贝叶斯算法的查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35891855/

r - 关于 e1071 R 包中朴素贝叶斯算法的查询

上一篇：gulp.src (glob-stream) 负 glob 杀死匹配后的正 glob

下一篇：numbers - v-rep 奇怪的数字格式