r - 使用 R 和 H2O 进行 Word2Vec 情感分类

标签 r machine-learning sentiment-analysis deep-learning h2o

我正在尝试使用 R 和 H2O 构建情感分类模型。 我有一个格式如下的数据文件:

  +-----------+------------------------------------------------------+
| Sentiment | Text                                                 |
+-----------+------------------------------------------------------+
| 1         | This is a sample text. This is another sentence.     |
+-----------+------------------------------------------------------+
| 0         | Another sentence. And another!                       |
+-----------+------------------------------------------------------+
| -1        | Text text and Text! Text everywhere! So much text... |
+-----------+------------------------------------------------------+

因此情感值为 a 1、0 和 -1,每行中的文本可以由多个句子组成。 我知道想要准备数据集以将其与 h2o 的深度学习功能一起使用。因此我想使用 tmcn.word2vec R 包。但我无法用这个包逐行转换它。我可以获取整个文本列并将其转换为 word2vec 文档,但这样我的情绪信息就会丢失。

是否有另一种方法可以将文本转换为 R 中深度学习函数的数字输入?特别是对于H2O?

致以诚挚的问候

最佳答案

https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors

上面的 Kaggle 文章解释了克服这一挑战的几种方法(但是,在 Python 中)。有,

  1. 矢量平均(Avni 提到的)
  2. 聚类
  3. 段落向量 Check this paper

我认为这些想法可能会有所帮助。

关于r - 使用 R 和 H2O 进行 Word2Vec 情感分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30901595/

相关文章:

r - 如何将碎石图比例设置为与主成分相同?

r - 将 data.table 链分成两行代码以提高可读性

algorithm - 机器学习算法

python - 形状为 (15000, 250) 的目标数组被传递给形状为 (None, 1) 的输出,同时用作损失 `binary_crossentropy` 。我该怎么办?

nlp - 情感分析(意见挖掘)中最具挑战性的问题是什么?

python - 如何将字符串值传递给情感分析 RNN 序列模型并获取预测

R - 将列表转换为数据帧

r - Shiny 传单多边形的自定义静态着色

machine-learning - 位置感知推荐系统(协同过滤)?

machine-learning - Apache Mahout 中的加权朴素贝叶斯分类器