我正在开展一个项目,但我不太确定如何进行。问题可概括如下:
- 给定任意文本正文(类似于报告),确定报告的每个部分所指的地理位置。
地理位置范围从州到县(均在美国境内),因此数量有限,但每个报告通常包含对多个位置的引用。例如,报告的前 5 段可能是关于整个州的,然后接下来的 5 段可能是关于该州内的各个县,或类似的内容。
我很好奇解决此类问题的最佳方法是什么,也许可以提供 NLP 或 ML 框架(Python 或 Java)方面的具体建议?
最佳答案
我实际上可以在这里提供一些帮助(我的研究是地名解析领域)。
如果我理解正确,您正在寻找一种方法来 (1) 查找文本中的地名,(2) 消除地名的地理引用的歧义,以及 (3) 在空间上对整个句子或段落进行定位。
有很多开源包可以做到#1。 Stanford Core NLP , OpenNLP
有一些软件包可以实现 #1 和 #2。 CLAVIN可能是目前唯一可以做到这一点的可用开源应用程序。 Yahoo Placemaker花钱但能做到。
实际上没有一个包可以做到#3。有一个较新的项目名为 TEXTGROUNDER做一些称为“文档地理定位”的事情,但是虽然代码可用,但它并未设置为在您自己的输入文本上运行。我只建议您在渴望开始或为尝试做类似事情的项目做出贡献时查看它。
所有三项任务仍然是正在进行的研究的一部分,并且根据源文本的详细信息可能会变得异常复杂。您没有提供有关文本的详细信息,但希望这些信息可以帮助您。
关于machine-learning - 通过任意文本正文确定地理位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17386394/