python - 如何从词序中区分句子型和非句子型?

标签 python machine-learning nlp

我有很多行,它们可以分为两种类型。

单词序列的类型:

  1. 这是一个有效的英语句子:

    经验:- 作为一名忠诚的软件工程师,拥有超过 5 年的经验 拥有 Microsoft 技术和商业智能方面的经验 工具。

  2. 不是一个有效的英语句子(只是单词序列):
    示例:

    • 客户:PMP 汽车零部件

    • HTML、层叠样式表、Java 脚本、JSP

    • 组织:Satyam Computer Services Ltd.,| ? |职称: 软件工程师 | ? |持续时间 : 03/2006 03 /2010 | ? |
    • SLC - STC 优异认证 - 2006 年 Satyam Computer Services Ltd.

我正在使用 python 进行机器学习任务。我可以使用 POS 标签作为 NLTK 分类的特征。该问题可以应用哪种算法?

更新:
应该利用哪些特征来预测它是否是一个句子?

最佳答案

您可以使用树标记包装器: Reathedocs of TreetaggerWrapper

从文档来看它应该很容易使用:

import pprint   # For proper print of sequences.
import treetaggerwrapper
#1) build a TreeTagger wrapper:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
#2) tag your text.
tags = tagger.tag_text("This is a very short text to tag.")
pprint.pprint(treetaggerwrapper.make_tags(tags))

检查句子是否包含名词(标签 NN)、动词(标签 VBZ)和正确的句子标点符号(标签 SENT) )

关于python - 如何从词序中区分句子型和非句子型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41185050/

相关文章:

python - 命名实体识别: For new/latest entities

python - 我应该将Python的pyc文件添加到.dockerignore吗?

python - Python 中 Twitter 的情感分析

pandas - 使用交叉验证分数获得零分

machine-learning - 与内核 svm 相​​关的困惑

parsing - 俄语的现代依存解析器

machine-learning - 分类器还是启发式?

python - jinja2 变量命名 - 变量命名限制是否与 Python 变量相同?

python - 如何在Python中非连续地切片二维数组

Pythonlogging.basicConfig为处理程序设置不同的级别