从自由文本中提取位置的推荐方法是什么?
我能想到的是使用正则表达式规则,例如“单词......在位置”。但还有比这更好的方法吗?
我还可以考虑建立一个包含国家和城市名称的查找哈希表,然后将从文本中提取的每个标记与哈希表的标记进行比较。
有人知道更好的方法吗?
编辑:我正在尝试从推文文本中提取位置。因此,大量推文的问题也可能会影响我对方法的选择。
最佳答案
所有基于规则的方法都会失败(如果您的文本确实是“免费的”)。其中包括正则表达式、上下文无关语法、任何类型的查找...相信我,我以前经历过:-)
这个问题称为命名实体识别。位置是研究最多的 3 个类别之一(分别是个人和组织)。斯坦福 NLP 有一个非常强大的开源 Java 实现:http://nlp.stanford.edu/software/CRF-NER.shtml
您可以轻松找到其他编程语言的实现。
关于nlp - 从文本中提取位置的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17762516/