machine-learning - 使用词嵌入时处理缺失词的最佳方法是什么?

标签 machine-learning nlp deep-learning word2vec word-embedding

我有一组预先训练的 word2vec 词向量和一个语料库。我想用词向量来表示语料库中的单词。语料库中有一些单词我没有训练过的单词向量。处理没有预训练向量的单词的最佳方法是什么?

我听到了一些建议。

  1. 对每个缺失的单词使用一个由零组成的向量

  2. 对每个缺失的单词使用随机数向量(并提供一系列有关如何绑定(bind)这些随机数的建议)

  3. 我的一个想法:取一个向量,其值是所有预训练向量中该位置上所有值的平均值

任何有解决这个问题经验的人都知道如何处理这个问题吗?

最佳答案

Facebook 的 FastText 从子词 n 元语法中组装单词向量,使其能够处理词汇表之外的单词。有关此方法的更多信息,请访问:Out of Vocab Word Embedding

关于machine-learning - 使用词嵌入时处理缺失词的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48697595/

相关文章:

machine-learning - 在没有提供注释的情况下,如何在 PascalVOC 2012 或 COCO 测试集上测试模型?

python - AttributeError :'Tensor' 对象没有属性 '_keras_history'

machine-learning - 同时对不同的输出使用不同的损失函数 Keras?

python - Huggingface 上的 mT5 模型可以用于机器翻译吗?

tensorflow - reshape 层的输出维度

python - 密集层权重形状

python - 自动sklearn安装错误

python - 如何解释 Scikit-learn 混淆矩阵

java - 斯坦福JavaNLP中如何获取父节点?

scikit-learn - 如何从 MultinomialNB 中获取新数据的预测?