php - 当人们 curl 我的网站时,我如何返回垃圾文本?

标签 php http curl encoding http-headers

我不希望人们使用脚本轻松获取我网站的所有内容。现在,如果我使用 php curl,我可以获取站点中的所有文本和数据。但我看到一些网站只返回垃圾文本。例如这个中文站点:'www.jjwxc.net/onebook.php?novelid=6971&chapterid=6' 如果我使用下面的 php

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);

    $headers = array();
    $headers[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png, image/gif, image/x-bitmap, image/jpeg, image/pjpeg, *;q=0.5";
    $headers[] = "Cache-Control: max-age=0";
    $headers[] = "Connection: keep-alive";
    $headers[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    $headers[] = "Accept-Language: en-us,en;q=0.5";
    $headers[] = "Pragma: ";
    $headers[] = 'Content-type: application/x-www-form-urlencoded;charset=UTF-8';

    curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

    curl_setopt($ch, CURLOPT_ENCODING, '');  
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);        
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 4);
    curl_setopt($ch, CURLOPT_TIMEOUT, 8);

    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.0.12) Gecko/2009070611 Firefox/3.0.12");

    $data = curl_exec($ch);
    curl_close($ch);

    echo $data;

我只能得到垃圾文本。但是即使在禁用 JavaScript 的情况下使用浏览器,我也可以查看所有正确的字符。知道他们是怎么做到的吗?谢谢!

最佳答案

该站点使用 gzip 传输编码。浏览器透明地解压缩它,而您在使用较低级别的工具(如 curl)时必须手动解压缩它。

最终无法区分 curl 和常规浏览器。两者都简单地执行 HTTP 请求,而您的服务器响应 HTTP 请求。您可以查看用户代理 HTTP header ,它要么不存在,要么在 curl 的情况下显示为“curl”;但是添加常规浏览器默认添加的任何和所有 header 是微不足道的,这使得源自 curl 的 HTTP 请求与浏览器发起的 HTTP 请求完全无法区分。

你想要的根本不可能。如果信息是公开的,它就是公开的。您无法决定谁可以看到它,谁不能。

减缓大规模抓取的唯一方法是通过 IP 地址跟踪所有请求,并限制 IP 似乎发起异常多的请求。但即便如此,一小部分代理服务器也可以轻松解决这个问题。

关于php - 当人们 curl 我的网站时,我如何返回垃圾文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32482434/

相关文章:

php - Jquery - 在mysql中查找两个唯一id之间的范围

java - 发出在 Java 中异步上传文件的 HTTP 请求的最简单方法是什么?

json - 我无法让 jq 给我我正在寻找的值(value)。

r - curl 包未安装

php - 我怎样才能 "dual"内爆嵌套数组?

php - HTML DOM : how to properly use the textContent property with PHP

php - 如何在开发 LAMP 服务器上运行多个版本的 PHP 5.x?

HTTP:流水线、保持事件和服务器发送事件之间的关系是什么?

java - 为什么我从 Jakarta Commons HttpClient 收到空请求?

PHP - Curl 正在添加 HTTP ://to my HTTPS URL