我正在尝试使用 openNLP 对此处提供的电影评论数据集进行情感分析:http://www.cs.cornell.edu/people/pabo/movie-review-data/ (极性数据集v2.0)
如何使用此数据集在 openNLP 中训练文档分类器模型?
它包含大量已分类为正面、负面的评论,并放入不同的文件夹集中。
openNLP 需要一个文件作为输入,每个评论都在新行上,并带有类别标签前缀。我正在寻找一种简单的方法来将此数据集转换为 openNLP 兼容格式。
最佳答案
OpenNLP 目前不支持 Movie Review 格式。您可以创建一个脚本来转换它 Training Format ,看起来像这样:
neg A negative tokenized text. Remove line breaks.
pos A positive tokenized text. Remove line breaks.
但是 OpenNLP 文档分类器对于情感分析任务来说并不完美。有一个正在使用 OpenNLP 开发的情感分析组件,地址为 USCDataScience/SentimentAnalysisParser .
关于java - 将数据转换为 openNLP 兼容的训练格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44214725/