regex - 网站智能数据提取算法

我正在构建一个交易聚合器，所以我需要一个爬虫来从一些网站中提取数据:价格、折扣、图像、坐标和交易名称。

您是否知道任何教程、电子书或对我有帮助的东西？对于图像和坐标以及折扣，我有一个解决方案和模式:

如何获得以下元素？

您是否知道任何有用的数据提取算法？

最佳答案

我建议您使用基于 XPath 的抓取工具。例如Web-Harvest

或者，如果您想分析原始文本，我建议您使用状态机解析器来识别文本的模板化部分。

关于regex - 网站智能数据提取算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11029456/

相关文章：

c - 我正在尝试编写欧几里德算法但是当我在 C 代码中使用循环时程序崩溃