python - 如何让 Mechanize 请求看起来像是来自真实浏览器

标签 python http-headers http-post mechanize mechanize-python

好的,这是我在登录帐户时从 Live HTTP Header 获得的 header (只是一个示例)信息:

http://example.com/login.html

POST /login.html HTTP/1.1
Host: example.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
Referer: http://example.com
Cookie: blahblahblah; blah = blahblah
Content-Type: application/x-www-form-urlencoded
Content-Length: 39
username=shane&password=123456&do=login

HTTP/1.1 200 OK
Date: Sat, 18 Dec 2010 15:41:02 GMT
Server: Apache/2.2.3 (CentOS)
X-Powered-By: PHP/5.2.14
Set-Cookie: blah = blahblah_blah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Cache-Control: private, no-cache="set-cookie"
Expires: 0
Pragma: no-cache
Content-Encoding: gzip
Vary: Accept-Encoding
Content-Length: 4135
Keep-Alive: timeout=10, max=100
Connection: Keep-Alive
Content-Type: text/html; charset=UTF-8

通常我会这样写:

import mechanize
import urllib2

MechBrowser = mechanize.Browser()
LoginUrl = "http://example.com/login.html"
LoginData = "username=shane&password=123456&do=login"
LoginHeader = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)", "Referer": "http://example.com"}

LoginRequest = urllib2.Request(LoginUrl, LoginData, LoginHeader)
LoginResponse = MechBrowser.open(LoginRequest)

以上代码运行良好。我的问题是,我是否还需要在 LoginHeader 中添加以下这些行(以及之前的 header 信息中的更多行)以使其看起来真的像 firefox 的冲浪,而不是 Mechanize ?

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7

需要伪造哪些部分/多少标题信息才能使其看起来“真实”?

最佳答案

这取决于您要“愚弄”什么。您可以尝试一些进行简单用户代理嗅探的在线服务来衡量您的成功:

http://browserspy.dk/browser.php

http://www.browserscope.org (查找“我们认为您正在使用...”)

http://www.browserscope.org/ua

http://panopticlick.eff.org/ -> 将帮助您选择一些“太常见而无法跟踪”的选项

http://networking.ringofsaturn.com/Tools/browser.php

我相信一个坚定的程序员可以检测到您的游戏,但是一旦您回显您的真实浏览器发送的内容,许多日志解析器和工具就不会检测到。

您应该考虑的一件事是缺少 JS 可能会引发危险信号,因此也可以在禁用 JS 的情况下捕获已发送的 header 。

关于python - 如何让 Mechanize 请求看起来像是来自真实浏览器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4622739/

相关文章:

python - 检查 tsv 文件中是否有空行,并且不对该空行执行 mysql 插入

python - Python 赋值后类对象的继承

node.js - Node js request.post 回调未触发

firefox - 在 Firefox 中访问 IP 地址时发送主机头

google-analytics - wix 自定义操作发送 http 帖子不起作用

c# - 同时读取 FromUri 和 FromBody

python opencv : How to use Kalman filter

python - Windows 上带有 --noconsole 的 pyinstaller 根本无法工作

asp.net-mvc - MVC 的 HTTP 缓存 - Last-Modified 响应 header 始终等于日期

javascript - 在 XUL 应用程序中监听 HTTP header