有几个网站有对我来说很重要的数据,但没有 API 函数来检索这些数据。我想获取这些信息,而且我想创建自己的 API。
第一个问题是这些网站将数据存储在它们的登录页面后面,所以我必须先进入那里,然后才能检索这些数据。
应该提到的是,网站使用 JS 来检索数据并发送查询,并且还有 SSL 协议(protocol),因此所有流量都是加密的。
我的想法是
- 使用 Wireshark 捕获流量。
- 破译它。
- 仔细查看包裹。
- 问题就在这里。有什么工具可以重建TCP session 吗?
最后。我可以创建某种 API 来伪造 TCP session ,并且 Web 服务器会将此 session 识别为与真实浏览器的 session ,或者这是不可能的?我读过 selenium,但它需要太多系统资源。
最佳答案
更容易从浏览器开发者工具中读取数据。它们允许您查看完整的请求数据和响应。
然后,模拟一个浏览器,你只需要发送一个类似的请求,使用相同的cookies和user agent,和真实的浏览器没有区别。
在现代浏览器(例如 Firefox 或 Chrome)中,您可以转到开发人员工具上的“网络”选项卡并将请求导出为 curl
命令,这样您稍后可以从命令发送相同的请求行。
关于parsing - 捕获和分析流量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33259817/