text - 基于机器学习的领域特定命名实体识别 (NER)？

我需要构建一个识别特定域中的 NE 的分类器。例如，如果我的域是曲棍球或足球，分类器应该接受该域中的 NE，但不接受它在网页上看到的所有代词。我的最终目标是通过 NER 改进文本分类。

对于从事该领域工作的人，请建议我应该如何构建这样的分类器？谢谢!

最佳答案

如果您只想忽略代词，您可以运行任何 POS 标记器，然后运行任何 NER 算法(斯坦福包是一个流行的实现)，然后忽略任何作为代词的命名实体。但是，代词可能指的是命名实体，这对于分类器的性能可能重要也可能不重要。唯一能确定的方法就是尝试一下。

一个稍微不相关的评论 - 在特定领域数据(例如曲棍球)上训练的 NER 系统更有可能从该域中获取实体，因为它会看到实体出现的一些上下文。根据系统的不同，它由于语法、词形模式等原因，也可能会从其他域中获取实体(如果我正确理解你的问题，你不想要这些实体)。

关于text - 基于机器学习的领域特定命名实体识别 (NER)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9987681/

相关文章：

Python - 读取文本并写入 csv。将空列替换为默认值 'N/A'