python - 命名实体识别: For new/latest entities

标签 python nlp nltk named-entity-recognition

很抱歉这个奇怪的“问题标题”,但我想不出合适的标题。

我对 NLP 概念不熟悉,所以我使用了 NER 演示 ( http://cogcomp.cs.illinois.edu/demo/ner/results.php )。现在的问题是“如何以及以什么方式”我可以使用 NER 完成的这些标记。我的意思是,人们可以从这些已标记为某些组(位置、人员、组织等)的命名实体中得出哪些答案或推论。如果我有一个包含全新公司、地点等名称的数据,那么我该怎么办对这样的数据进行 NER 标记?

请不要投票或阻止我,我只需要指导/专家建议就是这样。阅读一个概念是另一回事,而能够知道何时何地应用它又是另一回事,这就是我寻求指导的地方。非常感谢!!!

演示中的片段:-

狗已经在 cargo 区域使用了一段时间,但最近才被引入 LOC 纽瓦克LOC JFK 机场的乘客区。 LOC JFK 有一只狗,LOC Newark 有一只狗 PER Farbstein 说,少数。

最佳答案

通常 NER 是管道中的一个步骤。例如,一旦所有实体都被标记,如果您有很多句子,例如 [PER John Smith], CEO of [ORG IBM] said...,那么您可以设置一个公司表,并首席执行官们。这是 knowledge base population 的一种形式.

不过,还有很多其他用途,具体取决于您已有的数据类型以及您想要完成的任务。

关于python - 命名实体识别: For new/latest entities,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26262222/

相关文章:

python - 如何在 xml 文件中搜索单词并在 python 中打印它

python - CategorizedPlaintextCorpusReader : how to specify categories with regex? 'NoneType' 对象没有属性 'group' 错误

python - 创建正则表达式以查找标记文本中重复标记的序列

python - mashape python unirest库

python - NLP预处理词时如何保留特定词?(str.replace & regex)

python - 使用正则表达式提取某些短语,但排除后跟单词 "of"的短语

python - 识别文本中的重要单词和短语

python - 使用 Python 提取数据

python - env LC_ALL=C 和 python UnicodeEncodeError

java - MaltParser 1.5 PatternSyntaxException