在 CountVectorizer 变为 (40845 X 218904) 后,我遇到了一个只有 2 个类和我的训练数据集矩阵大小的文档分类问题。我想知道当 min_df 必须是 0 到 1 之间的 float 时,如何删除最不频繁的 4 个单词/特征。我什至通过将 min_df 值修改为 4 获得了良好的准确性和 F1 结果;但是我无法解释到底发生了什么。我在 6GB 机器上使用 python sklearn (scikit-learn) 包。
最佳答案
一切尽在doc ,但无论如何:
- 如果 min_df 是 0 到 1 之间的 float ,则将其解释为比例:所有频率低于文档比例的单词都将被忽略
- 如果 min_df 是一个 int,它会被解释为一个计数:所有出现频率低于此计数的单词都会被忽略
关于python-2.7 - min_df 如何工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20440253/