python - 仅从 (word,pos_tag) 元组获取 POS 标签列表

标签 python nltk pos-tagger

我有一个句子列表列表,按单词标记,然后标记 pos,因此结果显然是一个包含元素的列表:

[(w1,pos_tag1)(w2,pos_tag2)]
[(w3,pos_tag3),(w4,pos_tag4),(w5,pos_tag5)]
[(w6,pos_tag6),(w7,pos_tag7)]

我只需要按照它们在所有句子中出现的顺序获取 pos_tags 列表。我尝试的是对列表进行迭代

tags = [x[1] 表示列表中元素中的 x]

但这不起作用。我怎样才能拥有这些列表中的所有标签?

谢谢

最佳答案

您可以使用zip(*list) 习惯用法解压元组列表,请参阅Unpacking a list / tuple of pairs into two lists / tuples

>>> from nltk import pos_tag
>>> tagged_sent = pos_tag('The quick brown fox jumps over the lazy dog'.split()) 
>>> tagged_sent
[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN')]
>>> words, tags = zip(*tagged_sent)
>>> tags
('DT', 'JJ', 'NN', 'NN', 'VBZ', 'IN', 'DT', 'JJ', 'NN')

关于python - 仅从 (word,pos_tag) 元组获取 POS 标签列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42003418/

相关文章:

python - 使用 PerceptronTagger 阅读我自己的 NLTK 词性标记数据集

nltk - 从文本文档中提取技术关键字

python - 在 Python 中使用套接字发送字典?

python - 从 bash 向 python 发送参数

python - 如何使用nltk从字符串中提取名称

python - 打开一个大的 JSON 文件

python - 在 python 3.4 上使用 nltk 3.0 进行 pos 标记时出现编码错误

machine-learning - 计算词性标注器准确度的参数

python - 如何使用 python selenium 包打开 chrome webdriver,登录默认用户?

python - 如何防止spyder在我保存的文件的同一目录中创建临时文件