python - 对短语使用 word2vec

标签 python machine-learning nlp text-mining word2vec

我有一个文本文件,每行都有短语。如果我在此文件上运行 word2vec,它会通过将文件标记为单词来为我提供一个数字向量。像这样,

the -0.464252 0.177642 -1.212928 0.737752 0.990782 1.530809 1.053639 
0.182065 0.753926 0.082467  
of -0.281145 0.060403 -0.877230 0.566957 0.748220 1.108621 0.711598 
0.135636 0.489113 0.059783  
to -0.352605 0.101068 -0.995506 0.600547 0.809564 1.360837 0.905638 
0.114751 0.596093 0.067007 

相反,我希望它将每一行假设为一个单词,并为每一行输出一个向量。像这样的事情,

Suspension of sitting -0.244289 0.111375 -0.722939 0.366711 0.590016 0.904601 0.622145 0.098230 0.431038 0.008134

这是我正在使用的包。 'https://github.com/danielfrg/word2vec '

我该如何实现这个目标?

最佳答案

用下划线替换行中的空格: 猫语料库.txt | tr“”“_”> corpus_underscored.txt

现在,将为整个短语创建嵌入,如下所示: Suspension_of_sitting SOMENUM SOMENUM SOMENUM ...

请注意,我不确定您的嵌入应该是什么。 word2vec 将简单地将每个短语嵌入到每个短语之前和之后的短语窗口中(就像之前的单词一样)。 因此,如果目标短语之前和之后的短语相对于该目标短语没有意义,那么你的数字也没有意义。

关于python - 对短语使用 word2vec,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42953252/

相关文章:

python - 观察tensorflow rnn模型权重

nlp - 有没有一种简单的方法可以按spacy顺序获取 token 的位置?

python - 使用 NLTK 训练自定义 BIO 标记

python - 使用python从pdf中获取文本数据

python - 使用 selenium 和 beautifulsoup 进行网页抓取..解析和选择按钮时遇到麻烦

python - 在 Jinja Render 方法中使用变量作为键

python - 使用简单的神经网络进行二进制减法

python - theano中的反卷积自动编码器

python - 如何在详细或 Debug模式下运行 WSGIServer?

python - 使用 uuid 作为 url 的一部分是否会泄露有关服务器的信息?