nlp - 双元组到向量

我想使用 word2vec 工具为文档构建词嵌入。我知道如何找到与单个单词(unigram)对应的向量嵌入。现在，我想找到一个二元组的向量。可以使用word2vec吗？如果是，如何？

最佳答案

以下代码段将为您提供二元组的向量表示。请注意，要转换为向量的二元组需要在单词之间使用下划线而不是空格，例如bigram2vec(unigrams, "this report")错了，应该是bigram2vec(unigrams, "this_report") .有关生成 unigram 的更多详细信息，请参阅 gensim.models.word2vec.Word2Vec类(class)here .

from gensim.models import word2vec

def bigram2vec(unigrams, bigram_to_search):
    bigrams = Phrases(unigrams)
    model = word2vec.Word2Vec(bigrams[unigrams])
    if bigram_to_search in model.vocab.keys():
        return model[bigram_to_search]
    else:
        return None

关于nlp - 双元组到向量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35747245/

上一篇：sass - 是否可以使用 Webpack 和 sass 加载程序将 NODE_ENV 参数注入(inject) sass 文件？

下一篇：spring-boot - 将 Spring Boot 应用程序部署到 digital ocean

相关文章：

wordnet - 给定单词相似性推断句子相似性

python - 如何在 Gensim 的 Word2Vec 中正确使用 get_keras_embedding()？

java - 如何在java中查找文本中的名称实体

java - FrameNet 中的自动语义角色标记

string - 如何确定随机字符串听起来像英语？

nlp - 我们可以以分布式方式构建 word2vec 模型吗？

c# - 数据库的自然语言接口(interface)

python-3.x - BERT文件嵌入

python-3.x - 使用 Glove 方法时谈论skip-gram 和 cbow 有意义吗？

python - Tensorflow:分配变量后保存模型时出现 "GraphDef cannot be larger than 2GB."错误