java - 将数据转换为 openNLP 兼容的训练格式

标签 java sentiment-analysis opennlp

我正在尝试使用 openNLP 对此处提供的电影评论数据集进行情感分析:http://www.cs.cornell.edu/people/pabo/movie-review-data/ (极性数据集v2.0)

如何使用此数据集在 openNLP 中训练文档分类器模型?

它包含大量已分类为正面、负面的评论,并放入不同的文件夹集中。

openNLP 需要一个文件作为输入,每个评论都在新行上,并带有类别标签前缀。我正在寻找一种简单的方法来将此数据集转换为 openNLP 兼容格式。

最佳答案

OpenNLP 目前不支持 Movie Review 格式。您可以创建一个脚本来转换它 Training Format ,看起来像这样:

neg A negative tokenized text. Remove line breaks.
pos A positive tokenized text. Remove line breaks.

但是 OpenNLP 文档分类器对于情感分析任务来说并不完美。有一个正在使用 OpenNLP 开发的情感分析组件,地址为 USCDataScience/SentimentAnalysisParser .

关于java - 将数据转换为 openNLP 兼容的训练格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44214725/

相关文章:

python - Python NLTK 中的 Vader 'compound' 极性分数是如何计算的?

java - 有没有办法覆盖 Java 中的类变量?

java - 如何合并两个具有相同值的对象?

java - 用 Guava 缓存

java - 如何使用 OpenNLP 创建自定义模型?

java - 适用于整个文本文件的 OpenNLP 句子检测 API

java - 从词性标签数组中查找 "subject"

java - 玩!框架 2.7 - 无法连接到数据库

python - NLTK 情感维达 : polarity_scores(text) not working

python - 预期 conv1d_1_input 具有形状 (15, 512),但得到的数组具有形状 (4, 512)