<分区>
我正在考虑编写一个应用程序来伪跟踪竞争网站以确保我们的价格保持竞争力等。我考虑过使用 Google Shopping Search API 的可能性,但我觉得它可能缺乏灵 active 和并非我们所有的竞争对手都被完整列出或定期更新。
我的问题是,从哪里开始使用基于 PHP 的网络爬虫比较合适?我显然想要一个尊重(甚至对我们的竞争对手)的爬虫,因此它有望遵守 robots.txt 和限制。 (公平地说,我想我什至会在第三方服务器上托管它并让它抓取我们的网站以显示没有偏见。)我通过谷歌环顾四周,我找不到任何成熟的包——只有一些很差尽管被标记为 beta 或 alpha,但已编写超过一年未维护的 sourceforge 脚本。
寻找想法或建议。
谢谢
爬虫本身并没有那么复杂。您只需加载网站,然后评估并点击您找到的链接。
为了变得“友好”,您可能会做的是为您计划进行拖网捕捞的每个站点专门构建一个爬虫。换句话说,选择一个站点并查看它们的结构。围绕该结构编写您的获取请求和 html 解析代码。冲洗并重复其他部位。
如果他们使用通用的购物车软件(这里一切皆有可能),那么显然您有一些重用。
爬行时,您可能希望在非高峰时段访问他们的网站(这将是一个猜测)。另外,不要每秒执行 500/requests。把它关小一点。
您甚至可以考虑的一个可选的事情是联系这些其他网站,看看他们是否想参与一些直接的数据共享。理想的情况是每个人的产品都有一个 RSS 提要。
当然,根据您的销售对象,这可能被视为价格操纵...因此,请谨慎行事。