nlp - 如何在 Python 中对文本使用双正态分离

标签 nlp tfidfvectorizer

我正在寻找一种使用 Sklearn 实现双正态分离的方法。但我没有找到任何可用的解决方案。我读过Forman's article关于 BNS 特征缩放相对于 TF-IDF 的优势。

最佳答案

您可以使用为您在 Github 提到的文章制作的代码。 您可以找到代码片段以及如何将 BNS 与 sklearn SVM 分类器一起使用的示例数量等。

您应该在转换数据之前拟合 BNS,尽管作者在示例中跳过了此阶段:

X_bns = bns.transform(X) #change to 
X_bns = bns.fit_transform(X)

代码是用 Python 2 编写的。请确保在 bns.py 中将“iteritems()”更改为“items()”。

关于nlp - 如何在 Python 中对文本使用双正态分离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61609707/

相关文章:

text - 词干会损害文本分类的精度吗?

deep-learning - 训练使用 AutoConfig 定义的拥抱面 AutoModel

java - 如何通过 Stanford NLP Tools 训练中文分词器模型

python - 如何将 sklearn tfidf 矢量 pandas 输出转换为有意义的格式

python - 将概念上相似的文档聚类在一起?

java - OpenNLP Tokenizer 不检测属于一起的单词?

python - Scikit - TF-IDF 空词汇表

python - 解释 sklearn TfidfVectorizer 中的 TF-IDF 分数

Python:列表对象没有属性 'lower' - 但语料库已经是小写

scikit-learn - 当我从 Pipeline 中删除 RF 模型时,它会失去准确性