machine-learning - word2vec 对于监督学习有意义吗?

标签 machine-learning nlp word2vec supervised-learning unsupervised-learning

我有一个句子/标签对列表来训练模型,我应该如何对句子进行编码作为 SVM 的输入?

最佳答案

这些句子是同一种语言吗?您可以从预训练的 word2vec 文件开始,如果它是英文的,您可以从 Google 下载该文件。注意训练文件是如何创建的,是否应用了词干提取等。它是从哪个语料库生成的也很重要;如果这是来自新闻组或者是从网络或更正式的文本中提取的,您会得到不同的结果。

Word2Vec 基本上将每个单词编码到更高维的向量空间中。这通常是 200,300 或 500 维大。训练完成后,“测试”句子基本上就是词袋,不需要按任何顺序。

然后,对于词袋中的每个单词,找出相应的 word2vec 向量。然后,您可以通过对向量求平均值、取“最小值”、“最大值”来创建特征,如果您要比较文本,请考虑计算向量之间的余弦相似度。然后在 SVM 中使用这些功能。

关于machine-learning - word2vec 对于监督学习有意义吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38049591/

相关文章:

python - 在嘈杂的数据中寻找山谷

machine-learning - 用于一维数据的 tensorflow conv1d 和 max_pool

python-3.x - 反向传播神经网络

validation - 交叉验证——使用测试集还是验证集来预测?

java - 将 spark word2vec vector 转储到文件中

python - Word2Vec模型的词汇量明显低于其基于的列表的词汇量?

nlp - Java 谷歌引擎库

python - 使用 Stanford NLP(StanfordNERTagger 和 StanfordPOSTagger)为西类牙语设置 NLTK

java - 谷歌如何提供页面摘要

python - 如何通过 Doc2Vec 找到文档中最关键的句子或单词?