我正在尝试根据文本数据构建预测模型。我从文本数据(一元词和二元词)构建了文档术语矩阵,并在此基础上构建了不同类型的模型(如支持向量机、随机森林、最近邻等)。所有技术都给出了不错的结果,但我想改进结果。我尝试通过更改参数来调整模型,但这似乎并没有太大提高性能。我接下来可能采取哪些步骤?
最佳答案
这并不是一个真正的编程问题,但无论如何:
如果您的目标是预测,而不是文本分类,通常的方法是退避模型 ( Katz Backoff ) 和插值/平滑,例如Kneser-Ney smoothing 。
像随机森林这样更复杂的模型,据我所知并不是绝对必要的,如果您需要快速做出预测,可能会带来问题。如果您使用的是插值模型,您仍然可以使用保留的数据部分来调整模型参数 (lambda)。
最后,我同意 NEO 的阅读部分,并推荐 Jurafsky 和 Martin 的《语音和语言处理》。
关于r - 文本分析: What after term-document matrix?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30236472/