我正在编写Python脚本,我想从字符串中删除常见的英语单词,如“the”、“an”、“and”、“for”等等。目前我所做的是我已经制作了所有这些单词的本地列表,我只需调用 remove()
将它们从字符串中删除。但我想要一些Python风格的方法来实现这一点。已阅读有关 nltk 和 wordnet 的内容,但完全不知道我应该使用什么以及如何使用它。
编辑
好吧,我不明白为什么标记为重复,因为我的问题并不以任何方式意味着我了解停用词,现在我只想知道如何使用它......问题是关于我的可以在我的场景中使用,并且答案是停用词...但是当我发布这个问题时,我对停用词一无所知。
最佳答案
这样做。
vocabular = set (english_dictionary)
unique_words = [word for word in source_text.split() if word not in vocabular]
它尽可能简单且高效。如果您不需要唯一单词的位置,也可以将它们设置
!运算符 in
在集合上速度极快(在列表和其他容器上速度很慢)
关于python - 提取非内容英语单词字符串 - python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22904678/