我正在构建一个交易聚合器,所以我需要一个爬虫来从一些网站中提取数据:价格、折扣、图像、坐标和交易名称。
您是否知道任何教程、电子书或对我有帮助的东西?对于图像和坐标以及折扣,我有一个解决方案和模式:
- 形象:最大的形象永远是交易的主要形象
- 折扣:折扣始终是 50 到 99 之间的数字,并且始终带有“%”符号
- 坐标:总是十进制数,所以我用正则表达式得到它
如何获得以下元素?
- 交易名称?
- 价格?
您是否知道任何有用的数据提取算法?
最佳答案
我建议您使用基于 XPath 的抓取工具。例如Web-Harvest
或者,如果您想分析原始文本,我建议您使用状态机解析器来识别文本的模板化部分。
关于regex - 网站智能数据提取算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11029456/