python - 如何在gensim和fasttext中为word2vec准备数据？

标签 python machine-learning gensim word2vec fasttext

我想训练 word2vec 和 fasttext 以获取我拥有的特定数据集的向量。

我的模型应该采用什么作为输入？

我的文件是这样的:

Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly

现在，我应该如何准备数据以供 word2vec 运行？ word2vec 模型是否考虑了句子间的相似性，即我是否应该明智地准备语料库句子。

最佳答案

一种方法是首先将文档拆分为行，然后对于每一行，将行拆分为标记。然后你最终会得到一个包含标记列表的语料库。之后，您可以将其输入 gensim word2vec 模型。

关于python - 如何在gensim和fasttext中为word2vec准备数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52982761/

上一篇：machine-learning - 标准化多元线性回归模型中的因变量

下一篇：machine-learning - 多项式朴素贝叶斯中 coef_ 和 feature_log_prob_ 之间的区别？

相关文章：

python - 如何在 AutoKeras 1.0 中保存/加载模型

python - 如何在 Keras-Python 中输入二维数组？

python - 在 GenSim 上计算未见文档的主题分布

python - 将list的元素写入文件

python - 如何使用 .ui 文件创建小部件？

python - 一个或多个输入行的 numpy.loadtxt

python - Sklearn+Gensim : How to use Gensim's Word2Vec embedding for Sklearn text classification

python - 如何在AWS Lambda上正常运行NaCL？

python-3.x - 使用朴素贝叶斯分类器 Python 进行文本分类获得相同的输出

python - 在代理后面下载 gensim 模型