php - 简单的PHP屏幕抓取功能

标签 php screen-scraping blogs

我正在使用 WordPress 尝试自动博客(即 RSS 驱动的博客发布),所缺少的只是一个使用 RSS 的 URL 链接到的内容自动填充帖子内容的组件(RSS 不相关)到解决方案)。

使用标准 PHP 5,我如何创建一个名为 fetchHTML([URL]) 的函数,该函数返回在 <body>...</body> 之间找到的网页的 HTML 内容标签?

如果有任何先决条件“包含”,请告诉我。 谢谢。

最佳答案

好的,这是我们要求的 DOM 解析器代码示例。

<?php

function fetchHTML( $url )
  {

  $content = file_get_contents($url);

  $html=new DomDocument();
  $body=$html->getelementsbytagname('body');
  foreach($body as $b){ $content=$b->textContent; break; }//hmm, is there a better way to do that?
  return $content;
  }

关于php - 简单的PHP屏幕抓取功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3399960/

相关文章:

amazon-web-services - 静态网站的 Google Analytics 在本地主机上正常工作,而不是在 Amazon Web Services S3 存储桶上

blogs - WebPage 和 BlogPosting 的 JSON-LD 格式

javascript - 无法使用 javascript 根据输入计算面积

javascript - VBA 抓取 JavaScript 生成的内容

python - 使用 BS4 python 进行抓取

相当于 PyQuery 或 Nokogiri 的 PHP?

ruby-on-rails-3 - 在 heroku 上运行的 rails 3 博客引擎/gem,有什么用?

php - 在 PHP 中检索复杂类别结构下的产品时遇到问题

php - Elasticsearch 更新legal_argument_exception

php - 创建唯一的不可猜测的 base 36 id