nlp - 从文本中提取位置的方法?

标签 nlp text-mining information-extraction named-entity-recognition named-entity-extraction

从自由文本中提取位置的推荐方法是什么?

我能想到的是使用正则表达式规则,例如“单词......在位置”。但还有比这更好的方法吗?

我还可以考虑建立一个包含国家和城市名称的查找哈希表,然后将从文本中提取的每个标记与哈希表的标记进行比较。

有人知道更好的方法吗?

编辑:我正在尝试从推文文本中提取位置。因此,大量推文的问题也可能会影响我对方法的选择。

最佳答案

所有基于规则的方法都会失败(如果您的文本确实是“免费的”)。其中包括正则表达式、上下文无关语法、任何类型的查找...相信我,我以前经历过:-)

这个问题称为命名实体识别。位置是研究最多的 3 个类别之一(分别是个人和组织)。斯坦福 NLP 有一个非常强大的开源 Java 实现:http://nlp.stanford.edu/software/CRF-NER.shtml

您可以轻松找到其他编程语言的实现。

关于nlp - 从文本中提取位置的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17762516/

相关文章:

nlp - word2vec 上的负向量是什么意思?

python - 索引聊天日志并在 Django 中搜索它们

machine-learning - 使用 word2vec 来编码分类特征是个好主意吗?

r - 如何从 cox.zph R 函数中提取属性

python - 基于规则的 Spacy 实体匹配器

Python 从 URL 字符串中解析单词

database - 大型数据库上的文本挖掘(数据挖掘)

java - NLP for java,我应该使用哪个工具包?

regex - 如何使用 OpenNLP 和 stringi 检测句子边界?

text-extraction - 如何使用 PoS 标签作为朴素贝叶斯分类器训练数据的特征?