r - 使用 R 和 H2O 进行 Word2Vec 情感分类

标签 r machine-learning sentiment-analysis deep-learning h2o

我正在尝试使用 R 和 H2O 构建情感分类模型。我有一个格式如下的数据文件:

  +-----------+------------------------------------------------------+
| Sentiment | Text                                                 |
+-----------+------------------------------------------------------+
| 1         | This is a sample text. This is another sentence.     |
+-----------+------------------------------------------------------+
| 0         | Another sentence. And another!                       |
+-----------+------------------------------------------------------+
| -1        | Text text and Text! Text everywhere! So much text... |
+-----------+------------------------------------------------------+

因此情感值为 a 1、0 和 -1，每行中的文本可以由多个句子组成。我知道想要准备数据集以将其与 h2o 的深度学习功能一起使用。因此我想使用 tmcn.word2vec R 包。但我无法用这个包逐行转换它。我可以获取整个文本列并将其转换为 word2vec 文档，但这样我的情绪信息就会丢失。

是否有另一种方法可以将文本转换为 R 中深度学习函数的数字输入？特别是对于H2O？

致以诚挚的问候

最佳答案

https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors

上面的 Kaggle 文章解释了克服这一挑战的几种方法(但是，在 Python 中)。有，