我正在开发一个小爬虫来取乐,当我从某些网站抓取一些图片网址时,它们返回的结果真的很奇怪。
例如:
抓取的网址:
https:\/\/cdn1.vox-cdn.com\/thumbor\/zN9XawbQJgFPkuAcA2JEGgqApm8=\/cdn0.vox-cdn.com\/uploads\/chorus_asset\/file\/3700712\/tomorrowland54fdf04f23efb_2040.0.jpg
所需网址:
https://cdn1.vox-cdn.com/thumbor/zN9XawbQJgFPkuAcA2JEGgqApm8=/cdn0.vox-cdn.com/uploads/chorus_asset/file/3700712/tomorrowland54fdf04f23efb_2040.0.jpg
它添加了不必要的反斜杠,因此当您关注它时 url 不起作用,它会给出错误。
我尝试使用 stripslashes 函数,因为这似乎是它的目的,但它不起作用。网址保持不变。
(编辑)这是我用来抓取网址的代码:
function GetImages($page_dom) {
$found_links = [];
$images = $page_dom->getElementsByTagName('img');
foreach ($images as $image) {
$img_src = $image->getAttribute('src');
$found_links[] = $img_src;
}
return $found_links;
}
最佳答案
当您调用 json_encode
时,使用 JSON_UNESCAPED_SLASHES
选项来防止它转义斜杠。
但这不应该真的是必要的。如果要输出 JSON,则应将其发送到解析 JSON 的程序,JSON 解析器会将 \/
转换为 /
。
关于PHP从url中删除奇怪的反斜杠,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30315017/