我正在努力通过查看日志文件来查找错误并预测其可能的原因。 为了对其应用分类器,我需要文本是数字。我可以通过 NER 识别关键字,并需要将其用作训练集。谁能建议我一些方法来做到这一点?
最佳答案
Swapnil,人们通常通过将文本表示为 vector 来“制作文本数字”:枚举在训练集中看到的所有单词,然后为文档中的每个单词设置一个大的第 n 个元素 vector 。这种方法通常称为 Vector Space Model 在您的情况下,某些单词和单词组合可能是“特殊”(例如日志消息开头的“错误”和“警告”),您可以将它们分组在 vector 的开头,并将它们与来自的单词略有不同解释文本 - 例如,根据您分配给它们的值。 (显然,如果您可以使用命名实体识别来检测整个实体,则可以将每个实体视为 vector 中的一个元素。)
关于java - 我应该如何在包含文本的训练集上使用机器学习分类器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25808624/