r - 文本分析: What after term-document matrix?

标签 r machine-learning nlp svm text-mining

我正在尝试根据文本数据构建预测模型。我从文本数据(一元词和二元词)构建了文档术语矩阵,并在此基础上构建了不同类型的模型(如支持向量机、随机森林、最近邻等)。所有技术都给出了不错的结果,但我想改进结果。我尝试通过更改参数来调整模型,但这似乎并没有太大提高性能。我接下来可能采取哪些步骤?

最佳答案

这并不是一个真正的编程问题,但无论如何:

如果您的目标是预测,而不是文本分类,通常的方法是退避模型 ( Katz Backoff ) 和插值/平滑,例如Kneser-Ney smoothing

像随机森林这样更复杂的模型,据我所知并不是绝对必要的,如果您需要快速做出预测,可能会带来问题。如果您使用的是插值模型,您仍然可以使用保留的数据部分来调整模型参数 (lambda)。

最后,我同意 NEO 的阅读部分,并推荐 Jurafsky 和 ​​Martin 的《语音和语言处理》。

关于r - 文本分析: What after term-document matrix?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30236472/

相关文章:

R 将 2 个字节的原始数据转换为整数

ios - iOS NSLinguisticTagger在获取词干时始终返回null

java - 如何将复数名词转换为单数名词

apache-spark - 如何更新 ALS 的 Spark MatrixFactorizationModel

machine-learning - keras 模型 fit_generator ValueError : Error when checking model target: expected cropping2d_4 to have 4 dimensions, 但得到形状为 (32, 1) 的数组

machine-learning - 在 Keras 中,dropout 应用在哪个权重上?

nlp - 如何从斯坦福 coreNLP 获取 "Universal dependencies, enhanced"响应?

r - Shiny 的 react 性解释(使用 ObserveEvent)

r - `rowname` - 矩阵列表

r - 导致 odfWeave 生成​​的 odt 文件被认为已损坏的行