有一些标准的停用词列表,给出了要从语料库中删除的诸如“a the of not”之类的词。但是,我想知道,停止列表是否应该逐案更改?
比如我有10K的期刊文章,那么由于文章的结构,基本上每篇文章你都会看到“介绍、评论、结论、页面”这样的词。我担心的是:我们应该从我们的语料库中删除这些词吗? (每个文档都有的词?)感谢每一个评论和建议。
最佳答案
我正在处理一个类似的问题,但文本分类。根据我的经验,最好有一组特定领域的停用词列表以及标准 .
列表。否则,“介绍”、“评论”等词会出现在词频矩阵中,如果您尝试过分析的话。它会给这些特定领域的关键字赋予更多权重,从而误导您的模型。
关于stop-words - 使用主题模型,我们应该如何设置一个 "stop words"列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28703120/