我正在尝试训练一个 LSTM 模型,用于对产品评论和推文等短文本进行情感分类。
我正在寻找一个标记积极/消极/中性的训练集,是否有这样的东西(免费研究)确实基于人类标签而不是基于开始或表情符号?我发现只有很小的训练集,这导致我的结果很差。我尝试增加网络和堆叠层的大小,但没有任何改善。
为了开始获得合理的结果,这样的训练集的最小大小是多少(F1 > 0.8)。
最佳答案
您实际上只需要列出一个包含 100 个左右的否定形容词和肯定形容词的列表。
参见:
http://na2english.wikispaces.com/file/view/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf/400672720/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf
http://arxiv.org/ftp/arxiv/papers/1011/1011.4623.pdf
如果您使用它们,显然要引用它们,但语言是免费的,因此您可以在工作中使用它们。
可能比您构建的数据库的大小更重要的是选择针对您的特定应用程序的单词以提高效率。
您将该项目的目标是特定的商业用途还是更广泛的研究工作?
关于python - 短文本情感分类任务所需的最小训练集大小是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36303610/