Count Vectorizer 实现了对一些英文单词(如 'a'
)的默认基本过滤,如其文档 here 中所写。 。它只是忽略了我不想要的它们。有什么办法可以阻止它这样做吗?
>>> count_vectorizer = CountVectorizer()
>>> list = ['a for the']
>>> counts = count_vectorizer.fit_transform(list)
>>> print counts
输出为
(0, 0) 1
(0, 1) 1
这意味着它识别了'for'
和'the'
(已测试),但无法识别'a'
。有什么方法可以识别每一个可能的单词吗?
最佳答案
来自文档: token_pattern:字符串 正则表达式表示“ token ”的构成,仅在分析器 == 'word' 时使用。默认正则表达式选择 2 个或更多字母数字字符的标记(标点符号完全被忽略并始终被视为标记分隔符)。
默认正则表达式是:
token_pattern='(?u)\b\w\w+\b'
只需编写您自己想要使用的正则表达式即可。
关于python - 如何阻止 Python Sci-kit 库的 Count Vectorizer 进行任何类型的单词过滤?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34991405/