python - Python 中 NLTK 工具包的默认分块器是什么？

我正在使用他们的默认 POS 标记和默认标记化..这似乎足够了。我也想要他们的默认分 block 器。

我正在阅读 NLTK 工具包书籍，但他们似乎没有默认分 block 器？

最佳答案

您可以使用 nltk.ne_chunk() 方法开箱即用命名实体分 block 。它需要一个 POS 标记的元组列表:

nltk.ne_chunk([('Barack', 'NNP'), ('Obama', 'NNP'), ('lives', 'NNS'), ('in', 'IN') , ('华盛顿', 'NNP')])

结果:

Tree('S', [Tree('PERSON', [('Barack', 'NNP')]), Tree('ORGANIZATION', [('Obama', 'NNP')]) , ('lives', 'NNS'), ('in', 'IN'), Tree('GPE', [('Washington', 'NNP')])])

它将贝拉克标识为一个人，但将奥巴马标识为一个组织。所以，并不完美。

关于python - Python 中 NLTK 工具包的默认分块器是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1687510/

上一篇：python - 无法使用 Python 打开 Unicode URL

下一篇：python - 如何专门分析 Django 自定义管理命令

python - 将文本分成句子 NLTK 与 spaCy

java - 使用 4 个已知 GCP 点将经纬度坐标转换为像素坐标的代码

python - 用于检查到期日期的代码，来自一个 python 脚本输出

为给定文本获取合适图片的算法

python - 如何使用未标记的数据集进行序列标记

python - 当一个主题太宽泛而另一个主题非常狭窄时，如何平衡主题、两类数据集？

php - 使用 python 和 php -python nltk 进行情感分析

python 3解决数据框问题

python - imshow ROI 的大小与 ROI.shape 不同