我正在尝试使用在线教程自学 Python 和自然语言处理
http://www.nltk.org/book/ch01.html#sec-automatic-natural-language-understanding
在每个部分的末尾,他们都会给出练习题,而对于第一部分,我已经完成了除了一个以外的所有部分。这个真的难倒我了。
在 nltk 中有一个名为 set() 的函数,它给出了列表中所有词汇的集合,并删除了所有重复的单词。
我们一直在使用集合来存储词汇表。尝试以下 Python 表达式:set(sent3) < set(text1)。使用 set() 的不同参数对此进行试验。它有什么作用?你能想到一个实际的应用吗?
我一直在为 set 运行带有几个不同参数的代码,但我在输出中看不到模式。有谁知道什么将一组分类为大于另一组?为什么这可能很重要?
谢谢!
最佳答案
对于集合,<
用于测试集合A是否为集合B的真子集。例如,
In [147]: set('ab') < set('abc')
Out[147]: True
因为set('ab')
是 set('abc')
的真子集.相比之下,
In [149]: set('abc') < set('abc')
Out[149]: False
自 set('abc')
不是自身的适当子集。
这个运算符是documented here .
关于python - 比较python nlp中的集合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23189755/