python - 如何从 sklearn 中的 TF*IDF 值获取字数

标签 python nlp scikit-learn tf-idf

我想仅使用一组句子的 tf*idf 矩阵来获取给定句子中单词的计数。我使用来自 sklearn.feature_extraction.text 的 TfidfVectorizer。

示例:

from sklearn.feature_extraction.text import TfidfVectorizer

sentences = ("The sun is shiny i like the sun","I have been exposed to sun")
vect = TfidfVectorizer(stop_words="english",lowercase=False)
tfidf_matrix = vect.fit_transform(sentences).toarray()

我希望能够仅使用 tfidf_matrix[0] 和可能的 vect.idf_ 来计算术语“sun”在第一句话中出现的次数(即 2)。 我知道有无数种方法可以获取词频和词数,但我有一个特殊情况,我只有一个 tfidf 矩阵。 我已经尝试将第一句中单词“sun”的 tfidf 值除以它的 idf 值以获得 tf.然后我将 tf 乘以句子中的单词总数以获得单词数。不幸的是,我得到了错误的值。

最佳答案

最直观的做法就是您尝试的做法:将每个 tf 值乘以您正在检查的句子中的单词数。但是,我认为这里的关键观察是每一行都已按其欧氏长度进行了归一化。因此,将每一行乘以该句子中的单词数最多是 近似 非规范化行,这就是为什么您会得到奇怪的值。 AFAIK,如果不提前知道每个原始行的规范,就不能对 tf*idf 矩阵进行非规范化。这主要是因为有无数个向量可以映射到任何一个归一化向量。因此,如果没有规范,您将无法检索到原始向量的正确大小。 See this answer有关我的意思的更多详细信息。

话虽如此,我认为在我们的案例中有一个解决方法。我们至少可以检索每个句子中术语计数的归一化比率,即 sun 看起来是 shiny 的两倍。我发现对每一行进行归一化以使 tf 值的总和为 1,然后然后将这些值乘以停用词过滤句子的长度似乎可以检索到原始单词计数。

演示:

sentences = ("The sun is shiny i like the sun","I have been exposed to sun")
vect = TfidfVectorizer(stop_words="english",lowercase=False)
mat = vect.fit_transform(sentences).toarray()
q = mat / vect.idf_
sums = np.ones((q.shape[0], 1))
lens = np.ones((q.shape[0], 1))
for ix in xrange(q.shape[0]):
    sums[ix] = np.sum(q[ix,:])
    lens[ix] = len([x for x in sentences[ix].split() if unicode(x) in vect.get_feature_names()]) #have to filter out stopwords
sum_to_1 = q / sums
tf = sum_to_1 * lens
print tf

产量:

[[ 1.  0.  1.  1.  2.]
 [ 0.  1.  0.  0.  1.]]

我用几个更复杂的句子尝试了这个,它似乎工作正常。如果我遗漏了什么,请告诉我。

关于python - 如何从 sklearn 中的 TF*IDF 值获取字数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32253125/

相关文章:

python - 如何解析 'ImmutableDenseNDimArray' 对象没有属性 'could_extract_minus_sign' ?

python - 如何将用 Pandas 提取的一列excel数据中的NaN替换为0

python - Python 中的崩溃或 ErrorValue - 关闭文件

python - 它叫什么,通过 NLP 从 HTML 中提取地址

python - SciKit Learn 如何只获取模型对象的名称?

python - 为什么 select.select() 可以处理磁盘文件而不是 epoll()?

python - NLP:如何搜索带有括号的字符串?

Java:多维缩放?

machine-learning - 如何平衡某个类别具有大量样本的训练数据集?

Python sklearn.mixture.GMM 不适合扩展吗?