text - 基于机器学习的领域特定命名实体识别 (NER)?

标签 text nlp machine-learning classification named-entity-recognition

我需要构建一个识别特定域中的 NE 的分类器。例如,如果我的域是曲棍球或足球,分类器应该接受该域中的 NE,但不接受它在网页上看到的所有代词。我的最终目标是通过 NER 改进文本分类。

对于从事该领域工作的人,请建议我应该如何构建这样的分类器? 谢谢!

最佳答案

如果您只想忽略代词,您可以运行任何 POS 标记器,然后运行任何 NER 算法(斯坦福包是一个流行的实现),然后忽略任何作为代词的命名实体。但是,代词可能指的是命名实体,这对于分类器的性能可能重要也可能不重要。唯一能确定的方法就是尝试一下。

一个稍微不相关的评论 - 在特定领域数据(例如曲棍球)上训练的 NER 系统更有可能从该域中获取实体,因为它会看到实体出现的一些上下文。根据系统的不同,它由于语法、词形模式等原因,也可能会从其他域中获取实体(如果我正确理解你的问题,你不想要这些实体)。

关于text - 基于机器学习的领域特定命名实体识别 (NER)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9987681/

相关文章:

Python - 读取文本并写入 csv。将空列替换为默认值 'N/A'

python - 负采样中排除正样本

python - Scikit Learn SGDClassifier 预测问题

machine-learning - 连续数据决策树中寻找阈值的方法

java - 程序因文本字段为空而崩溃

android - 在具有其他背景的布局中具有透明背景的按钮上的发光文本

python - 如何使用 PYPDF2 从 pdf 中提取表值?

nlp - 将中文文档拆分成句子

javascript - 如果该子字符串前面没有特定字符串并忽略整个字符串,则正则表达式匹配该子字符串?

apache-spark - 将模型分数应用于 Spark DataFrame - Python