web-crawler - 旅游搜索引擎和聚合器如何获取源数据?

标签 web-crawler

我正在为旅游搜索引擎考虑一些想法,我想知道这些网站是如何获取它们的源数据的。他们是否从航空公司主页上抓取了所有内容?考虑到航空公司等的数量,这似乎是一项艰巨的工作。

是否有每个航空公司也遵守的 API 或 Web 服务标准?

我是否必须为我希望索引的每家航空公司协商访问数据 API 的权限?

最佳答案

在欧洲,有一个名为 tradedoubler 的附属平台似乎通过 API 提供此类信息。

http://www.tradedoubler.com/index.html

关于web-crawler - 旅游搜索引擎和聚合器如何获取源数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1513799/

相关文章:

hadoop - 重新索引爬取的数据 Solr 5.4.1

java - 页面上有两个字符集标签,该采用哪个?

python - Scrapy 爬取带有 PostBack 数据 javascript url 的页面不会改变

search - 如何在 OpenSearchServer 中抓取但不索引网页?

go - 从给定与浏览器相同的参数的页面发出 GET 请求在 golang 上不起作用

python-3.x - Python错误,我做得完全正确,但出现错误

python - 网站屏蔽Python爬虫。寻找要避免的想法

python beautifulsoup 爬虫从 mysql 中选取 URL 时出错

google-app-engine - 在 Google 应用引擎上将 Go 程序(网络爬虫)作为 cron 作业执行

javascript - 我可以在 javaScript 中使用从 Node.js 抓取的内容吗?