实现问题分析器有哪些好的资源?
我正在尝试弄清楚如何自动标记问题,以便非技术用户更容易提问。我发现使用贝叶斯定理可以实现这一点,但我不知道如何实现它。
有这方面的开源库或研究论文吗?
最佳答案
朴素贝叶斯概率分类器常用于文本分类。基本思想是使用单词和类别的联合概率来估计给定文档的类别概率。这种模型的幼稚部分是词独立性的假设。这种假设的简单性使得朴素贝叶斯分类器的计算比非朴素贝叶斯方法的指数复杂性更加高效,因为它不使用单词组合作为预测器。 如果任务是将测试文档分类为单个类,则选择后验概率最高的类。
这里有一个引用: [1] Tom Mitchell,“机器学习”,McGraw-Hill,1997。(第 6.10 节)
如果您将每个问题类别假设为文本类型,那么您可以使用文本分类。
朴素贝叶斯分类器基于贝叶斯定理,其中假设所有特征(或属性)都是独立的。
它非常容易实现。您可以找到许多带有实现的软件包。 R 中的 e1071 包实现了它。以下是 R 中使用朴素贝叶斯分类器的示例代码:
N <- nrow(data)
Ntrain <- round(N*0.7)
data <- data[sample(1:N),]
train <- data[1:Ntrain,]
test <- data[(Ntrain+1):N,]
y<-as.factor(train[,13])
x<-train[,3:12]
y_test <- as.factor(test[,13])
x_test <- test[,3:12]
library(e1071)
m <- naiveBayes(x, y)
pred_test <- predict(m,x_test, type = "class")
pred <- predict(m,x, type = "class")
关于algorithm - 实现自动标记问题分析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3496011/