我正在尝试从一组网站(成千上万个)中获取内容页面中的联系信息。我想问一下像你们这样的专家,然后再挠我的头。我需要的只是地址,电子邮件ID,电话号码和联系人信息(如果有)。
我认为您已经理解了问题。是的,这是格式设置...由于网站没有遵循标准格式,因此很难确定我需要的确切信息。一些网站设计有Flash Contact us页面,而另一些网站则将联系信息设计为具有自定义字体的图像类型。
大部分都欢迎使用提示/想法/建议...
谢谢....
最佳答案
正如您所期望的那样,这绝不是一件微不足道的任务。这是解决此问题的一种方法:
//对于电子邮件//对于电话#括号Contents:@ AND(Contents:.COM或Contents.NET)OR Contents:“(” OR Contents:“)”`重要说明:不应按字面意义使用上述代码。通过使用Lucene Regex查询和跨度查询,您甚至可以得到更高级的查询,这将使您能够构建非常复杂的查询。
查询字词周围的代码段,然后在代码段中运行(b)
正则表达式提取感兴趣的领域。
i)像Bing Maps这样的 map 提供者或Google Maps来验证地址,以进行多次验证。据我所知,USPS和其他提供收费的有效地址查询,以验证美国邮政编码和加拿大邮政编码。或ii)反向DNS查找电子邮件地址等等。...
就像我说的那样,这应该可以让您入门。这里没有一个最佳解决方案,您将需要尝试多种方法来迭代并达到所需的精度水平。
希望这可以帮助。
关于search - 搜索字符串算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8583111/