machine-learning - 使用词嵌入时处理缺失词的最佳方法是什么？

标签 machine-learning nlp deep-learning word2vec word-embedding

我有一组预先训练的 word2vec 词向量和一个语料库。我想用词向量来表示语料库中的单词。语料库中有一些单词我没有训练过的单词向量。处理没有预训练向量的单词的最佳方法是什么？

我听到了一些建议。

对每个缺失的单词使用一个由零组成的向量
对每个缺失的单词使用随机数向量(并提供一系列有关如何绑定(bind)这些随机数的建议)
我的一个想法:取一个向量，其值是所有预训练向量中该位置上所有值的平均值

任何有解决这个问题经验的人都知道如何处理这个问题吗？

最佳答案

Facebook 的 FastText 从子词 n 元语法中组装单词向量，使其能够处理词汇表之外的单词。有关此方法的更多信息，请访问:Out of Vocab Word Embedding

关于machine-learning - 使用词嵌入时处理缺失词的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48697595/

上一篇：r - 加权 Kmeans R

下一篇：machine-learning - Caffe - 连接层输入和输出

相关文章：

machine-learning - 在没有提供注释的情况下，如何在 PascalVOC 2012 或 COCO 测试集上测试模型？

python - AttributeError :'Tensor' 对象没有属性 '_keras_history'

machine-learning - 同时对不同的输出使用不同的损失函数 Keras？

python - Huggingface 上的 mT5 模型可以用于机器翻译吗？

tensorflow - reshape 层的输出维度

python - 密集层权重形状

python - 自动sklearn安装错误

python - 如何解释 Scikit-learn 混淆矩阵

java - 斯坦福JavaNLP中如何获取父节点？

scikit-learn - 如何从 MultinomialNB 中获取新数据的预测？

©2024 IT工具网联系我们