stop-words - 使用主题模型,我们应该如何设置一个 "stop words"列表?

标签 stop-words lda topic-modeling text-classification

有一些标准的停用词列表,给出了要从语料库中删除的诸如“a the of not”之类的词。但是,我想知道,停止列表是否应该逐案更改?

比如我有10K的期刊文章,那么由于文章的结构,基本上每篇文章你都会看到“介绍、评论、结论、页面”这样的词。我担心的是:我们应该从我们的语料库中删除这些词吗? (每个文档都有的词?)感谢每一个评论和建议。

最佳答案

我正在处理一个类似的问题,但文本分类。根据我的经验,最好有一组特定领域的停用词列表以及标准 .
列表。否则,“介绍”、“评论”等词会出现在词频矩阵中,如果您尝试过分析的话。它会给这些特定领域的关键字赋予更多权重,从而误导您的模型。

关于stop-words - 使用主题模型,我们应该如何设置一个 "stop words"列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28703120/

相关文章:

python - 使用 Python 的 LDA - 输入文件

R - LDA 主题模型输出数据

java - 使用对数似然比较不同的木槌主题模型?

elasticsearch - 多语言Elasticsearch索引

python - 我怎样才能使用 python 获取停用词列表

NLP - 为什么 "not"是停用词?

scikit-learn - 为什么Sklearn LDA主题模型总是建议(选择)主题最少的主题模型?

python - TF-IDF 如何仅获取单词列表

python - 是否有用于动态主题模型的有效 python 库,最好是扩展 Gensim?

r - 输入矩阵的每一行需要包含至少一个非零项