我有很多行,它们可以分为两种类型。
单词序列的类型:
这是一个有效的英语句子:
经验:- 作为一名忠诚的软件工程师,拥有超过 5 年的经验 拥有 Microsoft 技术和商业智能方面的经验 工具。
不是一个有效的英语句子(只是单词序列):
示例:客户:PMP 汽车零部件
HTML、层叠样式表、Java 脚本、JSP
- 组织:Satyam Computer Services Ltd.,| ? |职称: 软件工程师 | ? |持续时间 : 03/2006 03 /2010 | ? |
- SLC - STC 优异认证 - 2006 年 Satyam Computer Services Ltd.
我正在使用 python 进行机器学习任务。我可以使用 POS 标签作为 NLTK 分类的特征。该问题可以应用哪种算法?
更新:
应该利用哪些特征来预测它是否是一个句子?
最佳答案
您可以使用树标记包装器: Reathedocs of TreetaggerWrapper
从文档来看它应该很容易使用:
import pprint # For proper print of sequences.
import treetaggerwrapper
#1) build a TreeTagger wrapper:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
#2) tag your text.
tags = tagger.tag_text("This is a very short text to tag.")
pprint.pprint(treetaggerwrapper.make_tags(tags))
检查句子是否包含名词(标签 NN
)、动词(标签 VBZ
)和正确的句子标点符号(标签 SENT
) )
关于python - 如何从词序中区分句子型和非句子型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41185050/