machine-learning - 通过PV-DBOW学习到的文档向量是否等于文档中包含的词向量的平均值/总和？

我看到一些帖子说词向量的平均值在某些任务中比通过 PV_DBOW 学习的文档向量表现得更好。文档向量与其单词向量的平均值/总和之间有什么关系？我们可以说向量 d 大约等于其词向量的平均值或总和？谢谢!

最佳答案

没有。 PV-DBOW 向量是通过不同的过程计算的，基于 PV-DBOW 向量通过同时训练的浅层神经网络依次预测文本中每个单词的增量程度。

但是，简单的词向量平均值通常可以很好地用作文本的摘要向量。

因此，我们假设 PV-DBOW 向量和简单平均向量具有相同的维度。由于它们是从完全相同的输入(相同的单词列表)引导而来，并且神经网络并不比一组好的单词向量更复杂(在其内部状态)，因此向量的性能下游评价可能差别不大。

例如，如果 PV-DBOW 模型的训练数据很少，或者元参数没有很好地优化，但用于平均向量的词向量非常适合您的领域，也许简单-average-vector 对于某些下游任务会更好。另一方面，在足够的域文本上训练的 PV-DBOW 模型可以提供优于基于来自另一个域的词向量的简单平均的向量。

请注意，FastText 的分类模式(以及 Facebook StarSpace 中的类似模式)实际上优化了词向量，使其作为用于预测已知文本类的简单平均向量的一部分。因此，如果您的最终目标是拥有一个用于分类的文本向量，并且您拥有一个具有已知标签的良好训练数据集，那么这些技术也值得考虑。

关于machine-learning - 通过PV-DBOW学习到的文档向量是否等于文档中包含的词向量的平均值/总和？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51851193/