stop-words - 使用主题模型，我们应该如何设置一个 "stop words"列表？

标签 stop-words lda topic-modeling text-classification

有一些标准的停用词列表，给出了要从语料库中删除的诸如“a the of not”之类的词。但是，我想知道，停止列表是否应该逐案更改？

比如我有10K的期刊文章，那么由于文章的结构，基本上每篇文章你都会看到“介绍、评论、结论、页面”这样的词。我担心的是:我们应该从我们的语料库中删除这些词吗？ (每个文档都有的词？)感谢每一个评论和建议。

最佳答案

我正在处理一个类似的问题，但文本分类。根据我的经验，最好有一组特定领域的停用词列表以及标准 .
列表。否则，“介绍”、“评论”等词会出现在词频矩阵中，如果您尝试过分析的话。它会给这些特定领域的关键字赋予更多权重，从而误导您的模型。

关于stop-words - 使用主题模型，我们应该如何设置一个 "stop words"列表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28703120/

上一篇：perl - 为什么编码，然后解码字符串会使阿拉伯字符失去上下文？

下一篇：tridion - 使用 Tridion WebDAV 更新文件夹和文件夹内容

相关文章：

python - 使用 Python 的 LDA - 输入文件

R - LDA 主题模型输出数据

java - 使用对数似然比较不同的木槌主题模型？

elasticsearch - 多语言Elasticsearch索引

python - 我怎样才能使用 python 获取停用词列表

NLP - 为什么 "not"是停用词？

scikit-learn - 为什么Sklearn LDA主题模型总是建议(选择)主题最少的主题模型？

python - TF-IDF 如何仅获取单词列表

python - 是否有用于动态主题模型的有效 python 库，最好是扩展 Gensim？

r - 输入矩阵的每一行需要包含至少一个非零项