我正在尝试使用 scikit-learn
编写机器学习算法,该算法可以解析文本并根据训练数据对其进行分类。
使用文本数据的示例直接取自 scikit-learn
文档,使用 CountVectorizer
生成每个单词出现次数的稀疏数组。
>>> from sklearn.feature_extraction.text import CountVectorizer
>>> count_vect = CountVectorizer()
>>> X_train_counts = count_vect.fit_transform(twenty_train.data)
不幸的是,这没有考虑短语的任何顺序。可以使用更大的 ngrams
(CountVectorizer(ngram_range=(min, max))
) 来查看特定的短语,但这会迅速增加特征的数量并且不是甚至没有那么好。
是否有另一种处理有序文本的好方法?我绝对愿意将自然语言解析器(nltk
、textblob
等)与 scikit-learn
一起使用。
最佳答案
那word2vec embedding?呢?它是一种基于神经网络的词嵌入向量,并考虑了上下文。这可以为您的分类器提供一组更复杂的功能。
一个强大的用于自然语言处理的 python 库具有良好的 word2vec 实现是 gensim . Gensim 的构建具有很强的可扩展性和快速性,并具有高级文本处理功能。以下是如何开始的简要概述:
正在安装
只需执行 easy_install -U gensim
或 pip install --upgrade gensim
。
一个简单的 word2vec 示例
import gensim
documents = [['human', 'interface', 'computer'],
['survey', 'user', 'computer', 'system', 'response', 'time'],
['eps', 'user', 'interface', 'system'],
['system', 'human', 'system', 'eps'],
['user', 'response', 'time'],
['trees'],
['graph', 'trees'],
['graph', 'minors', 'trees'],
['graph', 'minors', 'survey']]
model = gensim.models.Word2Vec(documents, min_count=1)
print model["survey"]
这将输出“调查”映射到的向量,您可以将其用于分类器的特征输入。
Gensim 还有很多其他功能,如果您对自然语言处理感兴趣,值得更好地了解它。
关于python - 向量化时保留文本数据的顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38669905/