php - 如何用php写这个爬虫?

标签 php curl html-parsing web-crawler

我需要创建一个 php 脚本

思路很简单:

当我将博客文章的链接发送到此 php 脚本时,网页就会被抓取,并且带有标题页的第一张图片会保存在我的服务器上。

我必须为这个爬虫使用什么 PHP 函数

最佳答案

使用PHP Simple HTML DOM Parser

// Create DOM from URL
$html = file_get_html('http://www.example.com/');

// Find all images
$images = array(); 
foreach($html->find('img') as $element) {
       $images[] = $element->src;
} 

现在 $images 数组包含给定网页的图像链接。现在您可以将所需的图像存储在数据库中。

关于php - 如何用php写这个爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3815712/

相关文章:

php - 使用 curl 从 Twitter 流 API 检索数据时写入文件的数据不完整

ruby-on-rails - Curl::Error::Partial File Error: 传输部分文件错误

linux - curl 命令不通过 bash 中的 shell 脚本执行

php - CodeIgniter:帮助从网页获取元标记的类/库?

java - 从网站页面提取日期

忽略不在第一个/基本数组中的键值的 PHP array_merge

php - 如果数据库发生错误,如何将页面重定向到其他页面

python-3.x - 如何在 beautifulsoup 的多个列表中获取特定元素?

php - 单个 id 中多个元素的 CSS 分组

php - 在 PHP/MySQL 中获取日期之间的结果