r - 文本分析: What after term-document matrix?

关闭。这个问题需要多问focused 。目前不接受答案。

想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post .

已关闭 8 年前。

我正在尝试根据文本数据构建预测模型。我从文本数据(一元词和二元词)构建了文档术语矩阵，并在此基础上构建了不同类型的模型(如支持向量机、随机森林、最近邻等)。所有技术都给出了不错的结果，但我想改进结果。我尝试通过更改参数来调整模型，但这似乎并没有太大提高性能。我接下来可能采取哪些步骤？

最佳答案

这并不是一个真正的编程问题，但无论如何:

如果您的目标是预测，而不是文本分类，通常的方法是退避模型 ( Katz Backoff ) 和插值/平滑，例如Kneser-Ney smoothing 。

像随机森林这样更复杂的模型，据我所知并不是绝对必要的，如果您需要快速做出预测，可能会带来问题。如果您使用的是插值模型，您仍然可以使用保留的数据部分来调整模型参数 (lambda)。

最后，我同意 NEO 的阅读部分，并推荐 Jurafsky 和 Martin 的《语音和语言处理》。

关于r - 文本分析: What after term-document matrix?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30236472/

相关文章：

R 将 2 个字节的原始数据转换为整数