我需要从“gensim.models.keyedvectors.Word2VecKeyedVectors”的词汇中删除无效单词。
我尝试使用del model.vocab[word]
删除它,如果我打印model.vocab
,该单词就会消失,但是当我运行model时.most_similar
使用其他词,我删除的词仍然显示为相似。
那么,如何从 model.vocab
中删除一个单词,从而影响 model.most_similar
不带它呢?
最佳答案
没有现有的方法支持删除单个单词。
一个快速而肮脏的解决方法可能是在删除 vocab
条目的同时,记下现有向量的索引
(在底层大向量数组),并将该索引处的 kv_model.index2entity
列表中的字符串更改为某个插 header value (例如,'***DELETED***'
) 。
然后,在执行任何 most_similar()
后,丢弃任何与 '***DELETED***'
匹配的条目。
关于gensim - 有没有办法从 KeyedVectors 词汇表中删除单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54697748/