java - 我应该如何在包含文本的训练集上使用机器学习分类器？

标签 java machine-learning nlp classification

我正在努力通过查看日志文件来查找错误并预测其可能的原因。为了对其应用分类器，我需要文本是数字。我可以通过 NER 识别关键字，并需要将其用作训练集。谁能建议我一些方法来做到这一点？

最佳答案

Swapnil，人们通常通过将文本表示为 vector 来“制作文本数字”:枚举在训练集中看到的所有单词，然后为文档中的每个单词设置一个大的第 n 个元素 vector 。这种方法通常称为 Vector Space Model 在您的情况下，某些单词和单词组合可能是“特殊”(例如日志消息开头的“错误”和“警告”)，您可以将它们分组在 vector 的开头，并将它们与来自的单词略有不同解释文本 - 例如，根据您分配给它们的值。 (显然，如果您可以使用命名实体识别来检测整个实体，则可以将每个实体视为 vector 中的一个元素。)

关于java - 我应该如何在包含文本的训练集上使用机器学习分类器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25808624/

上一篇：java - 为什么 LibSvm 准确率没有超过 50%？

下一篇：python - Matlab 和 Python 中的 LASSO 回归结果不同

r - 回归逻辑混淆矩阵

machine-learning - 路易斯女士 |每个意图/应用程序的最大话语数

python - SMOTE，Python 中文本分类的过采样

java - 编写一个与浏览器交互的简单网络爬虫(Java)

java - 为什么Hibernate在一对一关系的情况下要放inner join？

java - RxJava2 concat() 只运行第一个 Observable

python - 如何将参数传递给已加载的 tensorflow 图(在内存中)

Azure 机器学习 - 推荐 Web 服务

machine-learning - NLP - 词表示