python - 如何在gensim和fasttext中为word2vec准备数据?

标签 python machine-learning gensim word2vec fasttext

我想训练 word2vec 和 fasttext 以获取我拥有的特定数据集的向量。

我的模型应该采用什么作为输入?

我的文件是这样的:

Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly

现在,我应该如何准备数据以供 word2vec 运行? word2vec 模型是否考虑了句子间的相似性,即我是否应该明智地准备语料库句子。

最佳答案

一种方法是首先将文档拆分为行,然后对于每一行,将行拆分为标记。然后你最终会得到一个包含标记列表的语料库。之后,您可以将其输入 gensim word2vec 模型。

关于python - 如何在gensim和fasttext中为word2vec准备数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52982761/

相关文章:

python - 如何在 AutoKeras 1.0 中保存/加载模型

python - 如何在 Keras-Python 中输入二维数组?

python - 在 GenSim 上计算未见文档的主题分布

python - 将list的元素写入文件

python - 如何使用 .ui 文件创建小部件?

python - 一个或多个输入行的 numpy.loadtxt

python - Sklearn+Gensim : How to use Gensim's Word2Vec embedding for Sklearn text classification

python - 如何在AWS Lambda上正常运行NaCL?

python-3.x - 使用朴素贝叶斯分类器 Python 进行文本分类获得相同的输出

python - 在代理后面下载 gensim 模型