python - 短文本情感分类任务所需的最小训练集大小是多少

标签 python machine-learning sentiment-analysis keras lstm

我正在尝试训练一个 LSTM 模型,用于对产品评论和推文等短文本进行情感分类。

我正在寻找一个标记积极/消极/中性的训练集,是否有这样的东西(免费研究)确实基于人类标签而不是基于开始或表情符号?我发现只有很小的训练集,这导致我的结果很差。我尝试增加网络和堆叠层的大小,但没有任何改善。

为了开始获得合理的结果,这样的训练集的最小大小是多少(F1 > 0.8)。

最佳答案

您实际上只需要列出一个包含 100 个左右的否定形容词和肯定形容词的列表。

参见:
http://na2english.wikispaces.com/file/view/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf/400672720/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf

http://arxiv.org/ftp/arxiv/papers/1011/1011.4623.pdf

如果您使用它们,显然要引用它们,但语言是免费的,因此您可以在工作中使用它们。

可能比您构建的数据库的大小更重要的是选择针对您的特定应用程序的单词以提高效率。

您将该项目的目标是特定的商业用途还是更广泛的研究工作?

关于python - 短文本情感分类任务所需的最小训练集大小是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36303610/

相关文章:

python - NLTK 情感维达 : polarity_scores(text) not working

python - Spark SQL 性能 - 在最小值和最大值之间加入值

Python 参数混淆

machine-learning - 已经有了带有二元类的决策树模型,当我测试新实例时如何获得概率?

machine-learning - 如何组合两个不同维度的特征?

machine-learning - FastAI关于使用TextList加载数据的问题

python - 在 Python 中重新映射 OpenCV 中的像素值的最快方法是什么?

python - 如何从列中提取字符串的某些部分以在 Pandas 中创建其他列

python - NLTK 和停用词失败 #lookuperror

python - 多维度的情绪分析 API,即积极性、情绪性等