我正在制作一个抓取工具,从 facebook 抓取我的 friend 列表,然后从他们那里抓取一个共同 friend 的列表,目的是用数据构建一个网络。我查看了官方的 facebook api,似乎不可能这样做,所以我决定简单地从网页中抓取。
使用 mechanize 登录后,我抓取了页面,发现 facebook 一次只能加载 20 个 friend ,滚动时加载更多。我查看了他的 Mechanize 文档,但找不到解决方案。我试着在翻页之前睡了几秒钟,但也没有用。
不知道从哪里开始,反正有没有在 Mechanize 中模拟滚动?
最佳答案
除非你使用 Selenium要模拟实际网页,您将无法模拟“滚动”(没有窗口时如何滚动,因此没有窗口高度?)
您声明 API 中没有任何内容可以让您获取 friend 的 friend ,但似乎有一个 API function允许获取用户的好友列表。
如果这也不起作用,您唯一的选择是追踪 FB 用来获取下一个 friend 列表的 ajax,并使用它来获取更多信息。
关于python - 抓取时如何处理 'endless'网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38838904/