python - 如何使用 scikit learn 对文本数据进行二值化?

标签 python numpy machine-learning scipy scikit-learn

我正在使用 scikit 的 tfidf 向量化一些文本数据。通过 documentation我读到您可以将 idf 和规范化设置为 False 以获得 0/1 输出(二进制特征向量?)。所以我尝试了以下方法:

tfidf_vect= TfidfVectorizer(use_idf=False,
                            smooth_idf=True,
                            sublinear_tf=False,
                            ngram_range=(2,2),
                            norm=False)

有了这个特征向量将是二进制的?另一方面在documentation还有另一个模块可以完成这项任务,预处理。知道如何解决这个问题吗?

最佳答案

TfidfVectorizer 接受一个名为 binary 的参数:

tfidf_vect= TfidfVectorizer(use_idf=False,binary=True, norm=False, ngram_range=(2, 2))

这将使特征二进制化

关于python - 如何使用 scikit learn 对文本数据进行二值化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28404352/

相关文章:

Python numpy C++ 绑定(bind)

machine-learning - 火车和测试线并行运行意味着什么?

machine-learning - 使用自动编码器的 1 的不兼容形状

python - 属性错误: 'module' object has no attribute in NetworkX

python - 如何识别openCV中的不完整矩形

python - 如何使用不均匀子数组作为平铺来平铺一维 numpy 数组?

machine-learning - 关于马尔可夫链的困惑

Python Enum 防止无效的属性赋值

python - 将模块方法分配给类变量或实例变量

python - 确定给定点半径内网格值平均值的最快方法