python - 如何绕过python中特定站点的DDOS攻击检查?

标签 python screen-scraping

我正在尝试抓取该网站,但在从该网站获取数据时,它对我进行了 ddos​​ 检查,它检查了大约 5 秒,然后重定向到相同的 url,但页面打开(在普通浏览器上)但是在 python 中,我试图请求同样的东西,它只是返回 ddos​​ 检查页面。有什么办法可以绕过它或任何解决方法吗? 这是我的代码: 谢谢:)

import requests
from urllib2 import build_opener
import time
import json

url = 'https://www.masterani.me/api/anime/63-naruto-shippuuden/detailed'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
       'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
       'Accept-Encoding': 'none',
       'Accept-Language': 'en-US,en;q=0.8',
       'Connection': 'keep-alive'}
page = requests.get(url, headers = headers)
print page.text

最佳答案

使用 headless 浏览器即可。使用 PhantomJS 和 Selenium webdriver 来抓取此类网站,或使用 AJAX 加载内容的网站。

我发现这些链接很有用。

https://www.guru99.com/selenium-python.html

https://vocuzi.in/blog/preventing-website-web-scrapers/

关于python - 如何绕过python中特定站点的DDOS攻击检查?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49473305/

相关文章:

python - 使用模块变量而不指向它

python / NumPy : Setting values to index ranges

python - 为什么用户输入的 Traitsui 中的属性不更新

python - 使用 Angular JS 标签(例如 ng-view)从网络获取文本

caching - 如何以编程方式保存网页?

java - 有没有自动生成屏幕抓取Java代码的工具

python - 返回 tkinter 列表框中选定值的列表

javascript - 从天气网站抓取完整的 html 数据

screen-scraping - 允许抓取结果的搜索引擎?

python - 如何在Airflow中实现Canary DAG来进行其他作业的健康检查?