我有一组预先训练的 word2vec 词向量和一个语料库。我想用词向量来表示语料库中的单词。语料库中有一些单词我没有训练过的单词向量。处理没有预训练向量的单词的最佳方法是什么?
我听到了一些建议。
对每个缺失的单词使用一个由零组成的向量
对每个缺失的单词使用随机数向量(并提供一系列有关如何绑定(bind)这些随机数的建议)
我的一个想法:取一个向量,其值是所有预训练向量中该位置上所有值的平均值
任何有解决这个问题经验的人都知道如何处理这个问题吗?
最佳答案
Facebook 的 FastText 从子词 n 元语法中组装单词向量,使其能够处理词汇表之外的单词。有关此方法的更多信息,请访问:Out of Vocab Word Embedding
关于machine-learning - 使用词嵌入时处理缺失词的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48697595/