java - 我应该如何在包含文本的训练集上使用机器学习分类器?

标签 java machine-learning nlp classification

我正在努力通过查看日志文件来查找错误并预测其可能的原因。 为了对其应用分类器,我需要文本是数字。我可以通过 NER 识别关键字,并需要将其用作训练集。谁能建议我一些方法来做到这一点?

最佳答案

Swapnil,人们通常通过将文本表示为 vector 来“制作文本数字”:枚举在训练集中看到的所有单词,然后为文档中的每个单词设置一个大的第 n 个元素 vector 。这种方法通常称为 Vector Space Model 在您的情况下,某些单词和单词组合可能是“特殊”(例如日志消息开头的“错误”和“警告”),您可以将它们分组在 vector 的开头,并将它们与来自的单词略有不同解释文本 - 例如,根据您分配给它们的值。 (显然,如果您可以使用命名实体识别来检测整个实体,则可以将每个实体视为 vector 中的一个元素。)

关于java - 我应该如何在包含文本的训练集上使用机器学习分类器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25808624/

相关文章:

java - Restful BDD : How to loop on Steps with Soft Assertions

r - 回归逻辑混淆矩阵

machine-learning - 路易斯女士 |每个意图/应用程序的最大话语数

python - SMOTE,Python 中文本分类的过采样

java - 编写一个与浏览器交互的简单网络爬虫(Java)

java - 为什么Hibernate在一对一关系的情况下要放inner join?

java - RxJava2 concat() 只运行第一个 Observable

python - 如何将参数传递给已加载的 tensorflow 图(在内存中)

Azure 机器学习 - 推荐 Web 服务

machine-learning - NLP - 词表示