php - 如何解析 LinkedIn 页面

标签 php html-parsing

有人可以帮助我如何通过 curl 解析此链接吗?

https://www.linkedin.com/in/williamhgates/

这是我的代码:

运行一下,看看结果:

$url = "https://www.linkedin.com/in/williamhgates/";
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_BINARYTRANSFER, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Host: www.linkedin.com/in/williamhgates/'));
$output = curl_exec($ch);
curl_close($ch);dd($output);die;

我只想获取文件中的全部源代码,但它显示:

Could not process this client request HTTP method request for URL

最佳答案

Linked in 不允许所有爬虫,除了少数向它们发送流量的爬虫(Google bot、Bingbot 等),它们已经明确阻止了用户代理。所以不可能向 Linkedin 页面发出 curl 请求。 但无论如何,你仍然设法爬取 Linkedin,它可能会给你带来法律问题。因此,最好不要管 Linkedin。

关于php - 如何解析 LinkedIn 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42245736/

相关文章:

php - 从php中的mysql查询中获取结果数组,while循环问题

javascript - 如何从 Microsoft 更新目录网页获取更新二进制 URL?

linux - 使用 sed 删除从特定 HTML 字符串到特定字符串的所有内容

php - 需要帮助使用 php 连接到 mysql

php - Eloquent DB::Post->where()->update() 始终返回 1,无论进行任何更改

javascript - Sweet Alert window.prompt 传值给服务器

php - iPhone 放大网站

html - 如何使用 Swift 访问 Kanna 中的特定标签?

python - 如何在 Beautiful Soup 中将网页抓取的输出写入列而不是行

javascript - 正则表达式在 Javascript 中获取两个字符串之间的数字