我正在尝试使用 R 和 H2O 构建情感分类模型。 我有一个格式如下的数据文件:
+-----------+------------------------------------------------------+
| Sentiment | Text |
+-----------+------------------------------------------------------+
| 1 | This is a sample text. This is another sentence. |
+-----------+------------------------------------------------------+
| 0 | Another sentence. And another! |
+-----------+------------------------------------------------------+
| -1 | Text text and Text! Text everywhere! So much text... |
+-----------+------------------------------------------------------+
因此情感值为 a 1、0 和 -1,每行中的文本可以由多个句子组成。 我知道想要准备数据集以将其与 h2o 的深度学习功能一起使用。因此我想使用 tmcn.word2vec R 包。但我无法用这个包逐行转换它。我可以获取整个文本列并将其转换为 word2vec 文档,但这样我的情绪信息就会丢失。
是否有另一种方法可以将文本转换为 R 中深度学习函数的数字输入?特别是对于H2O?
致以诚挚的问候
最佳答案
https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors
上面的 Kaggle 文章解释了克服这一挑战的几种方法(但是,在 Python 中)。有,
- 矢量平均(Avni 提到的)
- 聚类
- 段落向量 Check this paper
我认为这些想法可能会有所帮助。
关于r - 使用 R 和 H2O 进行 Word2Vec 情感分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30901595/