tensorflow - 将字数向量逆变换为原始文档

标签 tensorflow scikit-learn nlp tf-idf countvectorizer

我正在训练一个简单的文本分类模型(目前使用 scikit-learn)。要使用我使用的词汇表将我的文档样本转换为字数向量

CountVectorizer(vocabulary=myDictionaryWords).fit_transform(myDocumentsAsArrays)

来自sklearn.feature_extraction.text

这非常有效,我随后可以将此字数向量作为特征向量来训练我的分类器。但我不知道如何将这些字数向量逆变换为原始文档。 CountVectorizer 确实有一个函数 inverse_transform(X) 但这只能返回唯一的非零标记。

据我所知,CountVectorizer 没有任何映射回原始文档的实现。

有人知道如何从计数向量化表示中恢复 token 的原始序列吗?是否有 Tensorflow 或任何其他模块可以实现此目的?

最佳答案

CountVectorizer 是“有损”的,即对于文档: 这是惊人程序中的惊人字符串,它只会存储文档中的单词计数(即字符串 -> 1,惊人 -> 2 等),但会丢失位置信息。 因此,通过反转它,您可以创建一个文档,其中相同的单词重复相同的次数,但它们在文档中的顺序无法追溯。

关于tensorflow - 将字数向量逆变换为原始文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45076534/

相关文章:

Tensorflow 对象检测 API RCNN 在 CPU : 1 frame per min 上运行缓慢

python - Tensorflow build() 如何从 tf.keras.layers.Layer 工作

python - 在 windows 7 上安装 TensorFlow - 'pip3' 未被识别为内部或外部命令,

node.js - 在 Microsoft Luis 中,如何对实体数组建模?

python - Tensorflow 的 Estimator.evaluate() : Is the accuracy "global" or specific to the batch it saw?

python - 在 celery 任务中共享巨大的分类器对象

python - SVD 不产生尺寸减小

python - Python 中的 SVM 回归速度更快

python - 查找多词短语的同义词

python - 如何通过标点符号拆分 Pandas 列中的长字符串