我想训练 word2vec 和 fasttext 以获取我拥有的特定数据集的向量。
我的模型应该采用什么作为输入?
我的文件是这样的:
Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly
现在,我应该如何准备数据以供 word2vec 运行? word2vec 模型是否考虑了句子间的相似性,即我是否应该明智地准备语料库句子。
最佳答案
一种方法是首先将文档拆分为行,然后对于每一行,将行拆分为标记。然后你最终会得到一个包含标记列表的语料库。之后,您可以将其输入 gensim word2vec 模型。
关于python - 如何在gensim和fasttext中为word2vec准备数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52982761/