python-2.7 - min_df 如何工作?

标签 python-2.7 machine-learning scikit-learn

在 CountVectorizer 变为 (40845 X 218904) 后,我遇到了一个只有 2 个类和我的训练数据集矩阵大小的文档分类问题。我想知道当 min_df 必须是 0 到 1 之间的 float 时,如何删除最不频繁的 4 个单词/特征。我什至通过将 min_df 值修改为 4 获得了良好的准确性和 F1 结果;但是我无法解释到底发生了什么。我在 6GB 机器上使用 python sklearn (scikit-learn) 包。

最佳答案

一切尽在doc ,但无论如何:

  • 如果 min_df 是 0 到 1 之间的 float ,则将其解释为比例:所有频率低于文档比例的单词都将被忽略
  • 如果 min_df 是一个 int,它会被解释为一个计数:所有出现频率低于此计数的单词都会被忽略

关于python-2.7 - min_df 如何工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20440253/

相关文章:

python - 基于单个随机整数的 Python 中的随机连续列表切片

python - 获取keras模型的学习率

python - 在 python 中使用 SVC 进行预测时出现 "ValueError: Expected 2D array, got 1D array instead"

r - 使用聚类分配矩阵为数据分配聚类标签

python - 简单图像反卷积问题

javascript - 替换或删除完整字符串中包含单词中@temp之前的字符

python - 检查是否安装了pip?

python - 自定义 sklearn 变压器类中矩阵 (X) 的维数(行)减少

python - 如何绘制 K 均值算法的混淆/相似矩阵

python - scikit-learn 中的宏平均