neural-network - 训练一个 doc2Vec 模型实际需要多少数据?

标签 neural-network gensim doc2vec

我一直在用 gensim的用于训练 doc2Vec 模型的库。在尝试了不同的数据集进行训练后,我对 doc2Vec 模型的理想训练数据大小应该是多少感到困惑?

我将在这里分享我的理解。请随时纠正我/建议更改-

  • 通用数据集训练- 如果我想使用在通用数据集上训练的模型,在特定用例中,我需要对大量数据进行训练。
  • 上下文相关数据集的训练- 如果我想在与我的用例具有相同上下文的数据上训练它,通常训练数据的大小可以更小。

  • 但是在这两种情况下,用于训练的单词数量是多少?

    一般而言,当误差图达到“肘点”时,我们停止训练 ML 模型,在此进一步训练不会显着降低误差。有没有朝这个方向进行任何研究 - doc2Vec 模型的训练在到达肘部后停止的地方?

    最佳答案

    没有绝对的指南 - 这在很大程度上取决于您的数据集和特定的应用程序目标。有一些关于已发布 Doc2Vec 中使用的数据集大小的讨论工作在:

    what is the minimum dataset size needed for good performance with doc2vec?

    如果您的通用语料库与您领域的词汇量不匹配——包括相同的词,或使用相同意义的词——这是一个无法仅用“大量数据”解决的问题。更多的数据可能只是将词上下文和表示更多地“拉”到通用值,而不是特定于域的值。

    您确实需要拥有自己的定量、自动化评估/评分方法,以便您可以衡量使用特定数据和目标的结果是否足够,或者通过更多数据或其他培训调整进行改进。

    有时,参数调整可以帮助充分利用瘦数据——特别是,更多的训练迭代或更小的模型(更少的向量维度)有时可以稍微抵消一些小语料库的问题。但是Word2Vec/Doc2Vec真正受益于许多微妙变化的、特定于领域的数据——这是训练期间所有文本示例之间不断的、增量的拉锯战,有助于最终表示适应有用的排列组合,具有所需的相对距离/相对方向属性。

    关于neural-network - 训练一个 doc2Vec 模型实际需要多少数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48059145/

    相关文章:

    python - gensim Doc2Vec 是否区分具有正面和负面上下文的相同句子。?

    matlab - 在 MATLAB 中使用感知器对数据进行分类

    machine-learning - 这是使用状态 LSTM 神经网络预测时间序列的正确方法吗?

    python - 用 Python 计算 Keras 神经网络的准确性

    artificial-intelligence - Q-Learning 与神经网络相结合(有益的理解)

    lda - gensim lda 模型 - 用看不见的单词调用语料库的更新

    java - 是否可以在 deeplearning4j.word2vec 中使用 gensim word2vec 模型?

    python - Gensim word2vecmost_similar通过#前缀过滤

    python - 文档与 doc2vec 的相似度

    python - gensim 的 'docvecs' 是什么?