gensim - 有没有办法从 KeyedVectors 词汇表中删除单词?

标签 gensim word2vec embedding glove

我需要从“gensim.models.keyedvectors.Word2VecKeyedVectors”的词汇中删除无效单词。

我尝试使用del model.vocab[word]删除它,如果我打印model.vocab,该单词就会消失,但是当我运行model时.most_similar 使用其他词,我删除的词仍然显示为相似。 那么,如何从 model.vocab 中删除一个单词,从而影响 model.most_similar 不带它呢?

最佳答案

没有现有的方法支持删除单个单词。

一个快速而肮脏的解决方法可能是在删除 vocab 条目的同时,记下现有向量的索引(在底层大向量数组),并将该索引处的 kv_model.index2entity 列表中的字符串更改为某个插 header value (例如,'***DELETED***') 。

然后,在执行任何 most_similar() 后,丢弃任何与 '***DELETED***' 匹配的条目。

关于gensim - 有没有办法从 KeyedVectors 词汇表中删除单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54697748/

相关文章:

c# - 在类库中嵌入二进制文件

machine-learning - 文档向量中的哪些“信息”使情感预测起作用?

python - 来自文件的数据流与文件目录的性能

Gensim (word2vec) 检索 n 个最常见的单词

machine-learning - word2vec如何从向量中获取单词?

python - 嵌入python : Version inconsistent with ProgramFullPath

python - 需要帮助创建适当的模型来预测两个句子之间的语义相似性

python-3.x - Gensim v3.6.0 Word2Vec DeprecationWarning : Call to deprecated `wv` (Attribute will be removed in 4. 0.0,使用 self 代替)

gensim - gensim中word2vec的准确性测试

inheritance - 如何任意扩展 "object"