python - 比较python nlp中的集合

我正在尝试使用在线教程自学 Python 和自然语言处理

在每个部分的末尾，他们都会给出练习题，而对于第一部分，我已经完成了除了一个以外的所有部分。这个真的难倒我了。

在 nltk 中有一个名为 set() 的函数，它给出了列表中所有词汇的集合，并删除了所有重复的单词。

我们一直在使用集合来存储词汇表。尝试以下 Python 表达式:set(sent3) < set(text1)。使用 set() 的不同参数对此进行试验。它有什么作用？你能想到一个实际的应用吗？

我一直在为 set 运行带有几个不同参数的代码，但我在输出中看不到模式。有谁知道什么将一组分类为大于另一组？为什么这可能很重要？

谢谢!

最佳答案

对于集合，<用于测试集合A是否为集合B的真子集。例如，

In [147]: set('ab') < set('abc') 
Out[147]: True

因为set('ab')是 set('abc') 的真子集.相比之下，

In [149]: set('abc') < set('abc') 
Out[149]: False

自 set('abc')不是自身的适当子集。

这个运算符是documented here .

关于python - 比较python nlp中的集合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23189755/