python - 抓取时如何处理 'endless'网页

标签 python facebook mechanize mechanize-python

我正在制作一个抓取工具，从 facebook 抓取我的 friend 列表，然后从他们那里抓取一个共同 friend 的列表，目的是用数据构建一个网络。我查看了官方的 facebook api，似乎不可能这样做，所以我决定简单地从网页中抓取。

使用 mechanize 登录后，我抓取了页面，发现 facebook 一次只能加载 20 个 friend ，滚动时加载更多。我查看了他的 Mechanize 文档，但找不到解决方案。我试着在翻页之前睡了几秒钟，但也没有用。

不知道从哪里开始，反正有没有在 Mechanize 中模拟滚动？

最佳答案

除非你使用 Selenium要模拟实际网页，您将无法模拟“滚动”(没有窗口时如何滚动，因此没有窗口高度？)

您声明 API 中没有任何内容可以让您获取 friend 的 friend ，但似乎有一个 API function允许获取用户的好友列表。

如果这也不起作用，您唯一的选择是追踪 FB 用来获取下一个 friend 列表的 ajax，并使用它来获取更多信息。

关于python - 抓取时如何处理 'endless'网页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38838904/

上一篇：Ruby Mechanize 单击不起作用

下一篇：python - 将列表传递给 HTML 表单 Python

python - 无法打印模型的混淆矩阵

python - 在 Flask 中返回带有 HTTP 错误响应代码的消息？

python - Flask-restx 请求解析器返回 400 Bad Request

python - 如何在 python 中使用 mechanize 发送带有 post 请求的原始 JSON 数据

ruby - 我总是在使用 Mechanize 的 UTF-8 错误中得到一个无效的字节序列

python - 使用 Python Mechanize 下载图像

python - 如何在线程 python 程序中捕获 SIGINT？

Facebook Messenger Bot 每日推送通知，如何？

javascript - 获取在线用户facebook api