nlp - 预训练的嵌入矩阵是否具有<EOOS>,word vector?

标签 nlp deep-learning

我想构建一个带有预训练嵌入矩阵的 seq2seq 聊天机器人。预训练的 Embedding 矩阵,例如 GoogleNews-vectors-negative300、FastText 和 GloVe,是否具有 <EOS> 的特定词向量和 <UNK>

最佳答案

预训练嵌入定义了特定的词汇表。不在词汇表中的词称为词,也称为 oov(out of vocabulary)词。预训练的嵌入矩阵不会为 UNK 提供任何嵌入。处理 UNK 词有多种方法。

  1. 忽略 UNK 词
  2. 使用一些随机向量
  3. 使用 Fasttext 作为预训练模型,因为它通过从构成单词的 n-gram 向量构建 UNK 单词的向量来解决 oov 问题。

如果 UNK 的数量较少,则准确性不会受到太大影响。如果数字更高,则更好地训练嵌入或使用快速文本。

“EOS”Token也可以作为随机向量取(初始化)。

确保两个随机向量不相同。

关于nlp - 预训练的嵌入矩阵是否具有<EOOS>,word vector?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49346922/

相关文章:

algorithm - 除了 Levenshtein 之外,用于有序词集和后续聚类的更好的距离度量

python - NLTK 性能

Python 和 NLTK : Baseline tagger

python - Keras 和 LSTM 中的二元分类

python - TensorFlow Serving 中的legacy_init_op

java - 如何将单词归类到相应的类别?

python - 在 Python 中使用 Gensim 进行主题建模

machine-learning - Tensorflow models/slim eval_image_classifier.py 评估错误的图像数量

deep-learning - 具有内部 IP 地址且无 SSH 访问权限的 DataProc HUB 实例

tensorflow - 我需要在tensorflow和numpy之间切换吗?