有人可以帮助我如何通过 curl 解析此链接吗?
https://www.linkedin.com/in/williamhgates/
这是我的代码:
运行一下,看看结果:
$url = "https://www.linkedin.com/in/williamhgates/";
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_BINARYTRANSFER, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Host: www.linkedin.com/in/williamhgates/'));
$output = curl_exec($ch);
curl_close($ch);dd($output);die;
我只想获取文件中的全部源代码,但它显示:
Could not process this client request HTTP method request for URL
最佳答案
Linked in 不允许所有爬虫,除了少数向它们发送流量的爬虫(Google bot、Bingbot 等),它们已经明确阻止了用户代理。所以不可能向 Linkedin 页面发出 curl 请求。 但无论如何,你仍然设法爬取 Linkedin,它可能会给你带来法律问题。因此,最好不要管 Linkedin。
关于php - 如何解析 LinkedIn 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42245736/