python - 提取非内容英语单词字符串 - python

标签 python python-2.7 nltk wordnet

我正在编写Python脚本,我想从字符串中删除常见的英语单词,如“the”、“an”、“and”、“for”等等。目前我所做的是我已经制作了所有这些单词的本地列表,我只需调用 remove()将它们从字符串中删除。但我想要一些Python风格的方法来实现这一点。已阅读有关 nltk 和 wordnet 的内容,但完全不知道我应该使用什么以及如何使用它。

编辑

好吧,我不明白为什么标记为重复,因为我的问题并不以任何方式意味着我了解停用词,现在我只想知道如何使用它......问题是关于我的可以在我的场景中使用,并且答案是停用词...但是当我发布这个问题时,我对停用词一无所知。

最佳答案

这样做。

vocabular = set (english_dictionary)
unique_words = [word for word in source_text.split() if word not in vocabular]

它尽可能简单且高效。如果您不需要唯一单词的位置,也可以将它们设置!运算符 in 在集合上速度极快(在列表和其他容器上速度很慢)

关于python - 提取非内容英语单词字符串 - python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22904678/

相关文章:

python - numpy.array() 中的顺序参数有什么作用,也就是什么是连续顺序?

python - 错误 : PerfectSeparationError: Perfect separation detected, 结果不可用

python - uWSGI worker 卡住 : why

python - 使用列表理解替换 m x n 数组中的元素

python-2.7 - Web2py 第三方身份验证

python-2.7 - 尝试使用 kerberos winrm 连接到 Windows winRM

python - 将 NLTK 树叶值作为字符串获取

python - 如何通过 Doc2Vec 找到文档中最关键的句子或单词?

python - 最常见单词或短语的 FreqDist

python - 将文本拆分成段落 NLTK - nltk.tokenize.texttiling 的用法?