我有一个文本文件,每行都有短语。如果我在此文件上运行 word2vec,它会通过将文件标记为单词来为我提供一个数字向量。像这样,
the -0.464252 0.177642 -1.212928 0.737752 0.990782 1.530809 1.053639
0.182065 0.753926 0.082467
of -0.281145 0.060403 -0.877230 0.566957 0.748220 1.108621 0.711598
0.135636 0.489113 0.059783
to -0.352605 0.101068 -0.995506 0.600547 0.809564 1.360837 0.905638
0.114751 0.596093 0.067007
相反,我希望它将每一行假设为一个单词,并为每一行输出一个向量。像这样的事情,
Suspension of sitting -0.244289 0.111375 -0.722939 0.366711 0.590016 0.904601 0.622145 0.098230 0.431038 0.008134
这是我正在使用的包。 'https://github.com/danielfrg/word2vec '
我该如何实现这个目标?
最佳答案
用下划线替换行中的空格:
猫语料库.txt | tr“”“_”> corpus_underscored.txt
现在,将为整个短语创建嵌入,如下所示:
Suspension_of_sitting SOMENUM SOMENUM SOMENUM ...
请注意,我不确定您的嵌入应该是什么。 word2vec 将简单地将每个短语嵌入到每个短语之前和之后的短语窗口中(就像之前的单词一样)。 因此,如果目标短语之前和之后的短语相对于该目标短语没有意义,那么你的数字也没有意义。
关于python - 对短语使用 word2vec,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42953252/