python - 对短语使用 word2vec

标签 python machine-learning nlp text-mining word2vec

我有一个文本文件，每行都有短语。如果我在此文件上运行 word2vec，它会通过将文件标记为单词来为我提供一个数字向量。像这样，

the -0.464252 0.177642 -1.212928 0.737752 0.990782 1.530809 1.053639 
0.182065 0.753926 0.082467  
of -0.281145 0.060403 -0.877230 0.566957 0.748220 1.108621 0.711598 
0.135636 0.489113 0.059783  
to -0.352605 0.101068 -0.995506 0.600547 0.809564 1.360837 0.905638 
0.114751 0.596093 0.067007

相反，我希望它将每一行假设为一个单词，并为每一行输出一个向量。像这样的事情，

Suspension of sitting -0.244289 0.111375 -0.722939 0.366711 0.590016 0.904601 0.622145 0.098230 0.431038 0.008134

这是我正在使用的包。 'https://github.com/danielfrg/word2vec '

我该如何实现这个目标？

最佳答案

用下划线替换行中的空格: 猫语料库.txt | tr“”“_”> corpus_underscored.txt

现在，将为整个短语创建嵌入，如下所示: Suspension_of_sitting SOMENUM SOMENUM SOMENUM ...

请注意，我不确定您的嵌入应该是什么。 word2vec 将简单地将每个短语嵌入到每个短语之前和之后的短语窗口中(就像之前的单词一样)。因此，如果目标短语之前和之后的短语相对于该目标短语没有意义，那么你的数字也没有意义。

关于python - 对短语使用 word2vec，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42953252/

上一篇：python - 在 Tensorflow 中表示 3 维张量

下一篇：python - 无法通过 python 网络抓取从 HTML 文件中提取#document

相关文章：

python - 观察tensorflow rnn模型权重

nlp - 有没有一种简单的方法可以按spacy顺序获取 token 的位置？

python - 使用 NLTK 训练自定义 BIO 标记

python - 使用python从pdf中获取文本数据

python - 使用 selenium 和 beautifulsoup 进行网页抓取..解析和选择按钮时遇到麻烦

python - 在 Jinja Render 方法中使用变量作为键

python - 使用简单的神经网络进行二进制减法

python - theano中的反卷积自动编码器

python - 如何在详细或 Debug模式下运行 WSGIServer？

python - 使用 uuid 作为 url 的一部分是否会泄露有关服务器的信息？