web-scraping - 使用 url 抓取大量 Google Scholar 页面

标签 web-scraping beautifulsoup captcha google-scholar

我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者列表,我必须打开论文的链接才能获得完整列表。结果,我每隔几次尝试就会遇到 CAPTCHA。

有没有办法避免验证码(例如,每次请求后暂停 3 秒)?或者制作原始的 Google Scholar 个人资料页面以显示完整的作者列表?

最佳答案

最近我遇到了类似的问题。通过像这样实现随机相当长的 sleep ,我至少通过一个简单的解决方法简化了我的收集过程:

import time
import numpy as np

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds

如果您有足够的时间(比如说在晚上启动您的解析器),您可以进行更大的暂停(大 3 倍以上)以确保您不会收到验证码。

此外,您可以在对站点的请求中随机更改 user-agent,这会更加掩盖您。

关于web-scraping - 使用 url 抓取大量 Google Scholar 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45193277/

相关文章:

python - 如何运行多个 scrapyd 服务器?

python - -t 开关在 scrapy 中做什么?

javascript - 我怎样才能从这个表格内容中获取链接(我猜它是 javascript)? (没有 Selenium )

Python段错误,使用pyqt4

javascript - 为什么我的刷新验证码在 Firefox 中不起作用?

python - 如何提取嵌套在多个division元素中的anchor元素

python - 抓取 Google Scholar 时防止 503 错误

python - 尝试导入 BeautifulSoup 时出现异常

c# - 如何在 MVC3 中使用 @ReCaptcha 和 Ajax 表单?

php - 更改 Zend 图片验证码样式