我正在使用他们的默认 POS 标记和默认标记化..这似乎足够了。我也想要他们的默认分 block 器。
我正在阅读 NLTK 工具包书籍,但他们似乎没有默认分 block 器?
最佳答案
您可以使用 nltk.ne_chunk() 方法开箱即用命名实体分 block 。它需要一个 POS 标记的元组列表:
nltk.ne_chunk([('Barack', 'NNP'), ('Obama', 'NNP'), ('lives', 'NNS'), ('in', 'IN') , ('华盛顿', 'NNP')])
结果:
Tree('S', [Tree('PERSON', [('Barack', 'NNP')]), Tree('ORGANIZATION', [('Obama', 'NNP')]) , ('lives', 'NNS'), ('in', 'IN'), Tree('GPE', [('Washington', 'NNP')])])
它将贝拉克标识为一个人,但将奥巴马标识为一个组织。所以,并不完美。
关于python - Python 中 NLTK 工具包的默认分块器是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1687510/