python - NLTK:使用数字分数而不是标签进行文档分类

标签 python nltk

根据一个项目,我一直在使用 Python NLTK 和文档分类以及朴素贝叶斯分类器。据我从文档中了解到,如果您的不同文档被标记为 pos 或 neg 作为标签(或超过 2 个标签),这将非常有效

我正在处理的已经分类的文档没有标签,但它们有一个分数,一个介于 0 和 5 之间的 float 。

我想做的是构建一个分类器,就像文档中的电影示例一样,但它会预测一段文本的分数,而不是标签。我相信文档中提到了这一点,但从未将其作为“数字特征的概率”进行进一步探索

我既不是语言专家也不是统计学家,所以如果有人有这方面的例子,请与我分享,我将不胜感激。谢谢!

最佳答案

您正在寻找的是线性回归,scikit-learn 在这方面比 NLTK 好得多,请参阅 http://scikit-learn.org/stable/modules/linear_model.html

关于python - NLTK:使用数字分数而不是标签进行文档分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13015593/

相关文章:

Python re.findall 之后返回带有不需要的字符串的链接

python - 将算法从 Python 转换为 C : Suggestions for Using bin() in C?

python - 使用 ngram 查找匹配的单词

python - 如何在离线 Linux 机器上为 nltk 安装 english.pickle

machine-learning - Scikits NB 与 NLTK NB 的性能对比

python - 将列转换为 numpy 数组

python - 测试元组列表之间的差异并构建结果字典

python - 如何在 Python 中区分正确的和错误的 unicode 编码字符串?

nltk - 运行错误 nltk.gaac.demo()

python - 如何获取 "Word"在 NLP 中的重要性(TFIDF + 逻辑回归)