python - 如何从词序中区分句子型和非句子型？

关闭。这个问题需要多问focused 。目前不接受答案。

想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post .

已关闭 6 年前。

Improve this question

我有很多行，它们可以分为两种类型。

单词序列的类型:

这是一个有效的英语句子:

经验:- 作为一名忠诚的软件工程师，拥有超过 5 年的经验拥有 Microsoft 技术和商业智能方面的经验工具。
不是一个有效的英语句子(只是单词序列):
示例:
- 客户:PMP 汽车零部件
- HTML、层叠样式表、Java 脚本、JSP
- 组织:Satyam Computer Services Ltd.，| ？ |职称: 软件工程师 | ？ |持续时间 : 03/2006 03 /2010 | ？ |
- SLC - STC 优异认证 - 2006 年 Satyam Computer Services Ltd.

我正在使用 python 进行机器学习任务。我可以使用 POS 标签作为 NLTK 分类的特征。该问题可以应用哪种算法？

更新:
应该利用哪些特征来预测它是否是一个句子？

最佳答案

您可以使用树标记包装器: Reathedocs of TreetaggerWrapper

从文档来看它应该很容易使用:

import pprint   # For proper print of sequences.
import treetaggerwrapper
#1) build a TreeTagger wrapper:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
#2) tag your text.
tags = tagger.tag_text("This is a very short text to tag.")
pprint.pprint(treetaggerwrapper.make_tags(tags))

检查句子是否包含名词(标签 NN)、动词(标签 VBZ)和正确的句子标点符号(标签 SENT) )

关于python - 如何从词序中区分句子型和非句子型？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41185050/

python - 如何从词序中区分句子型和非句子型？

上一篇：machine-learning - 使用预训练 CNN 提取的特征作为 CNN/NN 的新特征

下一篇：python - 使用 Python 使用自变量对一组值进行预测或分类