重定向后的 PHP Curl

标签 php curl scrape

我试图变得有点自以为是,作为学习过程的一部分,尝试提高我的页面抓取技能。

我遇到但尚未解决的一件事是,某些网站会使用内部链接,然后重定向到外部链接。

我想做的是修改一些 curl 代码以跟随重定向,直到它们停止,然后获取最终的安息之地 URL。

有人为我推荐一些代码吗?

我目前有这个,但目前没有正确遵循重定向。

        $opts = array(CURLOPT_URL => $url,
                      CURLOPT_RETURNTRANSFER => true,
                      CURLOPT_HEADER => true,
                      CURLOPT_FOLLOWLOCATION => true);      

        $curl = curl_init(); 
        curl_setopt_array($curl, $opts);  
        $str = curl_exec($curl);  
        curl_close($curl);  

最佳答案

http.//php.net/manual/en/ref.curl.php

   function get_final_url( $url, $timeout = 5 )
 {
    $url = str_replace( "&", "&", urldecode(trim($url)) );

   $cookie = tempnam ("/tmp", "CURLCOOKIE");
$ch = curl_init();
curl_setopt( $ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1" );
curl_setopt( $ch, CURLOPT_URL, $url );
curl_setopt( $ch, CURLOPT_COOKIEJAR, $cookie );
curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, true );
curl_setopt( $ch, CURLOPT_ENCODING, "" );
curl_setopt( $ch, CURLOPT_RETURNTRANSFER, true );
curl_setopt( $ch, CURLOPT_AUTOREFERER, true );
curl_setopt( $ch, CURLOPT_CONNECTTIMEOUT, $timeout );
curl_setopt( $ch, CURLOPT_TIMEOUT, $timeout );
curl_setopt( $ch, CURLOPT_MAXREDIRS, 10 );
$content = curl_exec( $ch );
$response = curl_getinfo( $ch );
curl_close ( $ch );

if ($response['http_code'] == 301 || $response['http_code'] == 302)
{
    ini_set("user_agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1");
    $headers = get_headers($response['url']);

    $location = "";
    foreach( $headers as $value )
    {
        if ( substr( strtolower($value), 0, 9 ) == "location:" )
            return get_final_url( trim( substr( $value, 9, strlen($value) ) ) );
    }
}

if (    preg_match("/window\.location\.replace\('(.*)'\)/i", $content, $value) ||
        preg_match("/window\.location\=\"(.*)\"/i", $content, $value)
)
{
    return get_final_url ( $value[1] );
}
else
{
    return $response['url'];
   }
}

关于重定向后的 PHP Curl,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10288130/

相关文章:

php - 我如何设置xampp从C盘到D盘的路径

php - 在 PHP 中仅获取一次 MySql-Query 列作为标题(即使有多个结果)

php - 如何防止在表中创建重复的 IP?

java - 如何解析 HttpServletRequest 的 curl/wget 选项?

api - 为什么 Instagram 公共(public) API 未使用身份验证

php - 如何根据用户在表单中选择的日期范围输出值(成本)

c++ - 在 C++ 中使用 STL 的 cURL

xml - 如何在 XQuery 中获取节点值的总和?

javascript - 尝试从 HTML 中的 javascript 中提取 Json 字符串

php - Facebook 是否更改了测试用户帐户的系统?