我正在尝试从任意非结构化文本(主要是网站)中提取(邮政)地址。我的想法是使用(半)监督机器学习算法来解决这个问题。我有一个相当大的地址语料库,可以用来训练算法。经过训练后,我想输入任意文本 block ,并获取与该文本中的地址类似的任何内容。我想匹配部分基于结构相似性,部分基于匹配关键字(城市名称等)。
我不太确定现有库已经涵盖了多大程度的内容,或者我自己还需要走多远。我是否必须使用自然语言处理来分解一段文本,然后使用文本相似性分析?或者是否有一种简单的技术或库可以在很大程度上自行处理这个问题?
为此,我目前正在 Python 中使用 NLTK 和 scikit-learn。我确信一旦我知道了要寻找的正确关键字和技术,我就可以找到解决方案,但我是这个领域的新手,并且希望获得有关如何最好地解决此问题的高级概述。
最佳答案
考虑到您会在数据中发现大量的变化和噪音,我怀疑这里不会为您提供任何简单的解决方案。从自由文本中解析邮政地址本身就是一个困难的研究问题。根据解析代理(基于人类或机器)的结果训练分类器会增加几个级别的复杂性。
如果您处理的是美国地址,the answer to this previous question概述了最常见的解析方法。
关于python - 使用样本语料库训练机器学习算法,然后从任意文本中提取相似部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23808776/