python - 抓取时如何处理 'endless'网页

标签 python facebook mechanize mechanize-python

我正在制作一个抓取工具,从 facebook 抓取我的 friend 列表,然后从他们那里抓取一个共同 friend 的列表,目的是用数据构建一个网络。我查看了官方的 facebook api,似乎不可能这样做,所以我决定简单地从网页中抓取。

使用 mechanize 登录后,我抓取了页面,发现 facebook 一次只能加载 20 个 friend ,滚动时加载更多。我查看了他的 Mechanize 文档,但找不到解决方案。我试着在翻页之前睡了几秒钟,但也没有用。

不知道从哪里开始,反正有没有在 Mechanize 中模拟滚动?

最佳答案

除非你使用 Selenium要模拟实际网页,您将无法模拟“滚动”(没有窗口时如何滚动,因此没有窗口高度?)

您声明 API 中没有任何内容可以让您获取 friend 的 friend ,但似乎有一个 API function允许获取用户的好友列表。

如果这也不起作用,您唯一的选择是追踪 FB 用来获取下一个 friend 列表的 ajax,并使用它来获取更多信息。

关于python - 抓取时如何处理 'endless'网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38838904/

相关文章:

android - 如何区分 facebook API 中的 "tag"和 "post on wall"操作

python - 无法打印模型的混淆矩阵

python - 在 Flask 中返回带有 HTTP 错误响应代码的消息?

python - Flask-restx 请求解析器返回 400 Bad Request

python - 如何在 python 中使用 mechanize 发送带有 post 请求的原始 JSON 数据

ruby - 我总是在使用 Mechanize 的 UTF-8 错误中得到一个无效的字节序列

python - 使用 Python Mechanize 下载图像

python - 如何在线程 python 程序中捕获 SIGINT?

Facebook Messenger Bot 每日推送通知,如何?

javascript - 获取在线用户facebook api