python-2.7 - min_df 如何工作？

标签 python-2.7 machine-learning scikit-learn

在 CountVectorizer 变为 (40845 X 218904) 后，我遇到了一个只有 2 个类和我的训练数据集矩阵大小的文档分类问题。我想知道当 min_df 必须是 0 到 1 之间的 float 时，如何删除最不频繁的 4 个单词/特征。我什至通过将 min_df 值修改为 4 获得了良好的准确性和 F1 结果；但是我无法解释到底发生了什么。我在 6GB 机器上使用 python sklearn (scikit-learn) 包。

最佳答案

一切尽在doc ，但无论如何:

如果 min_df 是 0 到 1 之间的 float ，则将其解释为比例:所有频率低于文档比例的单词都将被忽略
如果 min_df 是一个 int，它会被解释为一个计数:所有出现频率低于此计数的单词都会被忽略

关于python-2.7 - min_df 如何工作？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20440253/

上一篇：machine-learning - 从回归模型中找出属性值组合

下一篇：matlab - 误差反向传播 - 神经网络

相关文章：

python - 基于单个随机整数的 Python 中的随机连续列表切片

python - 获取keras模型的学习率

python - 在 python 中使用 SVC 进行预测时出现 "ValueError: Expected 2D array, got 1D array instead"

r - 使用聚类分配矩阵为数据分配聚类标签

python - 简单图像反卷积问题

javascript - 替换或删除完整字符串中包含单词中@temp之前的字符

python - 检查是否安装了pip？

python - 自定义 sklearn 变压器类中矩阵 (X) 的维数(行)减少

python - 如何绘制 K 均值算法的混淆/相似矩阵

python - scikit-learn 中的宏平均