有没有办法使用 NLTK 显示给定文本中哪些词是填充词? 如果没有,有谁知道我在哪里可以得到一个用英文填词的词表? 谢谢
已解决: from nltk.corpus import stopwords
最佳答案
NLTK 本身不提供这样的列表,但可以在 Web 上的其他地方找到许多列表。
存在相当多的来源:Web 搜索带有“profanity”“badwords.txt” 或 blacklists.txt 的词表将产生许多来源。
- noswearing.com是一个起点。
- Netnanny 等网站和其他几个网站使用“审查列表”( this thread has a link )。下载一个并从那里开始。
在我们公司的案例中,我们最终创建了自己的列表并根据需要添加到其中。根据您的受众,必须调整和调整列表。
最后,尽管这 SO question已关闭(关于 php)我发现引用资料和讨论非常有用。
更新:您需要的是停用词列表。
希望对您有所帮助。
关于python - nltk pos 标签咒语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13776933/