java - Word2Vec 与中文

标签 java word2vec chinese-locale deeplearning4j

我一直在学习Word2Vec(Deeplearning4j),但我找不到任何支持中文的内容。从各种来源我知道它也可以通过使用一些插件来支持中文。

所以请告诉我任何中文插件,以及如何使用 word2vec 实现它。

Deeplearning4j Word2Vec 对于英语和中文(两者)的支持是否良好。如果没有,请通过链接建议一些更好的选择。

语言:Java

最佳答案

正如其他评论中提到的,word2vec 是一组带有预训练英语单词 vector 的单词。同样,您可以找到包含中文词 vector 的其他数据集。我正在使用 python,但我认为编程语言并不重要,因为您正在寻找的是数据集而不是模型或程序。

这是由腾讯人工智能实验室训练的中文词嵌入数据集,包含超过 800 万个中文单词和短语:https://ai.tencent.com/ailab/nlp/en/embedding.html

关于java - Word2Vec 与中文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37385239/

相关文章:

chinese-locale - 如何在腾讯或360手机上发布我的Android应用程序?

java - 对于相同的输入,Arrays.sort() 对于 int[] 和 String 的工作方式不同,为什么?

java - 如何从java中的文本文件中获取行数?

python - 如何通过word2vec获取反义词?

apache-spark - Pyspark 如何从 word2vec 词嵌入计算 Doc2Vec?

python - 如何从 pandas 的列中过滤第一次出现的普通话字符并将其放入另一列中

java - a、b、c、d(长度 4)与条件的所有可能组合 (java)

java - 如何更改 Material 设计抽屉导航中汉堡图标的颜色

python - 我应该使用什么方法将单词转换为机器学习应用程序的特征?

java - 使用 unicode 资源文件显示中文本地化字符