我正在尝试解决一个问题,每当发生崩溃时(在 Linux 世界中)我都有包含解码回溯(堆栈调用跟踪)的文件,并且我有一个唯一的 ID 来跟踪每次发生的崩溃。
我想构建一个分类器,它将从之前的解码回溯中学习并预测是否存在当前回溯的 ID。
这是我的第一个机器学习项目。我使用机器学习并在 Python 中使用 CountVectorizer 和 TF-IDF 方法进行了试验。
我想知道分类要考虑哪些特征,以及适合文本分类的算法来解决这个问题。
最佳答案
很高兴听到这是您的第一个机器学习项目!对于我的第一个 NLP,我使用经过审查的亚马逊产品来完成它。你试试词袋(BOW)模型吗?你也可以试试 N-gram。您可以考虑使用 NaiveBayes Classifier 并评估您的分类。然后你就会知道哪个会给你解决问题的最佳算法。
额外阅读(如果你喜欢):https://machinelearningmastery.com/encoder-decoder-models-text-summarization-keras/
关于python - 使用机器学习解码回溯,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45136300/