我一直在学习Word2Vec(Deeplearning4j),但我找不到任何支持中文的内容。从各种来源我知道它也可以通过使用一些插件来支持中文。
所以请告诉我任何中文插件,以及如何使用 word2vec 实现它。
Deeplearning4j Word2Vec 对于英语和中文(两者)的支持是否良好。如果没有,请通过链接建议一些更好的选择。
语言:Java
最佳答案
正如其他评论中提到的,word2vec 是一组带有预训练英语单词 vector 的单词。同样,您可以找到包含中文词 vector 的其他数据集。我正在使用 python,但我认为编程语言并不重要,因为您正在寻找的是数据集而不是模型或程序。
这是由腾讯人工智能实验室训练的中文词嵌入数据集,包含超过 800 万个中文单词和短语:https://ai.tencent.com/ailab/nlp/en/embedding.html
关于java - Word2Vec 与中文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37385239/