python CountVectorizer() vocabulary_get 方法返回 None

标签 python scikit-learn nltk

根据文档,我有这段代码 http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()

my_bunch = load_files("c:\\temp\\billing_test\\")

my_data = my_bunch['data']
print (my_bunch.keys())
print('target_names',my_bunch['target_names'])
print('length of data' , len(my_bunch['data']))


X_train_counts = count_vect.fit_transform(my_data)
print(X_train_counts.shape)

print ( count_vect.vocabulary_.get(u'algorithm'))

输出结果如下

dict_keys(['target', 'filenames', 'target_names', 'data', 'DESCR'])
target_names ['false', 'true']
length of data 920
(920, 8773)
None

想知道为什么 (920, 8773) 之后的“无”朝向底部

我在每个文件夹“true”和“false”中都有大约 460 个文本文档

谢谢,

最佳答案

因为单词 'algoritham' 从未出现在您的文档中。

也许你应该试试'algorithm'

关于python CountVectorizer() vocabulary_get 方法返回 None,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35281349/

相关文章:

从单独的线程运行的Python ServerSocket

python - 如何评估分类器在测试数据上的性能?

python - 将 Pandas 系列转换为可迭代对象的可迭代对象

python - 为什么在某些情况下使用 NLTK 提取单词会截断最后的 'S'?

python - 如何使用 nltk.stem.snowball 阻止 Shakespere/KJV

python - Wordnet 同义词不返回所有值 nltk

python - 将特定 URL 的正文响应保存到文件并使用 mitmproxy 对其进行解码

python - 使用特定键的顺序对字典列表进行排序

Python mysql建表错误

scikit-learn - 一类分类使用哪些算法?