regex - 网站智能数据提取算法

标签 regex algorithm data-extraction

我正在构建一个交易聚合器,所以我需要一个爬虫来从一些网站中提取数据:价格、折扣、图像、坐标和交易名称。

您是否知道任何教程、电子书或对我有帮助的东西?对于图像和坐标以及折扣,我有一个解决方案和模式:

  • 形象:最大的形象永远是交易的主要形象
  • 折扣:折扣始终是 50 到 99 之间的数字,并且始终带有“%”符号
  • 坐标:总是十进制数,所以我用正则表达式得到它

如何获得以下元素?

  • 交易名称?
  • 价格?

您是否知道任何有用的数据提取算法?

最佳答案

我建议您使用基于 XPath 的抓取工具。例如Web-Harvest

或者,如果您想分析原始文本,我建议您使用状态机解析器来识别文本的模板化部分。

看这个题目:Are there APIs for text analysis/mining in Java?

关于regex - 网站智能数据提取算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11029456/

相关文章:

c - 我正在尝试编写欧几里德算法但是当我在 C 代码中使用循环时程序崩溃

r - 通过 Google Playstore 在 R 中进行网页抓取

python - 从 .msg 文件中提取 .xlsx 附件

给定所有其他数字出现两次,查找在数组中仅出现一次的数字的算法

python - 如何从字符串中提取 float

python重新问题

r - gsub : replace word if not wrapped in brackets

php - 将 JS 正则表达式转换为 PHP 正则表达式

javascript - 匹配这个或完全匹配那个的正则表达式

c - 算法优化(质因数分解)