我想访问亚马逊内给定类别中的所有商品,但类别页面似乎是通过搜索生成的。在 URL 中添加页面搜索参数只会将您带到第 100 页。有什么办法可以克服这个问题吗?这是一个示例 url for books
最佳答案
使用 ajax XHR 调用动态加载内容。
长话短说:
- 打开浏览器开发工具
- 打开网络选项卡
- 点击亚马逊上的页面链接
- 查看 XHR 请求将发送至
http://www.amazon.com/mn/search/ajax/ref=sr_pg_3...
- 这是您应该在 Scrapy 蜘蛛中调用的内容(返回 JSON)
所以,基本上,您应该只调用此 XHR 请求 100 次(或者看看是否可以将它们全部合并在一起)。
有用的链接:
- Can scrapy be used to scrape dynamic content from websites that are using AJAX?
- Pagination using scrapy
注释:
- 亚马逊将搜索结果限制为 100 页
- 您可以尝试亚马逊 API 而不是直接抓取网站。看 Amazon API library for Python? .
希望有帮助。
关于python - 如何访问亚马逊类别列表的第 101 页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16189215/