php - 避免box xpath和curl的头部

标签 php html curl xpath domdocument

我正在编写代码以使用 xpath 和curl 获取网络数据。

这些代码得到 ul li 包含并工作。

但我不想获得标题..

我编写了以下代码来避免 header ,但不能

if($row->item(0)->tagName != '<ul class="graybg"><li>مدل خودرو</li>  <li>مشخصات</li><li>قیمت نمایندگی</li><li>قیمت بازار آزاد</li></ul>')

完整代码。

$ch = curl_init ("http://www.pedal.ir/price/");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows; U; Windows NT 5.1;      en-US; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13');
 curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_ENCODING, 'UTF-8');
 $page = curl_exec($ch);


$dom = new DOMDocument('1.0', 'utf-8');
libxml_use_internal_errors(true);
$dom->loadHTML($page);
libxml_clear_errors();
$xpath = new DOMXpath($dom);

$data = array();
$table_rows = $xpath-   >query('/html/body/div/div[1]/div/div/div/div/div/div/div[2]/ul '); // target   the row (the browser rendered <tbody>, but actually it really doesnt have one)

 if($table_rows->length <= 0) { // exit if not found
echo 'no table rows found';
exit;
 }

 foreach($table_rows as $tr) { // foreach row
   $row = $tr->childNodes;
  if($row->item(0)->tagName != '<ul class="graybg"><li>مدل خودرو</li>  <li>مشخصات</li><li>قیمت نمایندگی</li><li>قیمت بازار آزاد</li></ul>') { //  avoid headers
       $data[] = array(
         'moled' =>trim($row->item(0)->nodeValue),
         'detail' => trim($row->item(2)->nodeValue),
            'pricenama' => trim($row->item(4)->nodeValue),
            'pricebaza' => trim($row->item(6)->nodeValue),
    );
  }
  }

  echo '<pre>';
  print_r($data);;

最佳答案

作为替代方案,由于 header 具有标识它的不同类,因此您可以将其包含在检查中:

foreach($table_rows as $tr) { // foreach row
    $row = $tr->childNodes;

    if($row->item(0)->parentNode->getAttribute('class') !== 'graybg') { //  avoid headers
        $data[] = array(
            'moled' =>trim($row->item(0)->nodeValue),
            'detail' => trim($row->item(2)->nodeValue),
            'pricenama' => trim($row->item(4)->nodeValue),
            'pricebaza' => trim($row->item(6)->nodeValue),
        );
    }
}

Sample Output

关于php - 避免box xpath和curl的头部,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29815741/

相关文章:

php - 如何将 View 中的按钮连接到codeigniter中的数据库?

html - 给 `<span>` 负垂直边距

javascript - 使用 jQuery UI 而不是 Twitter Bootstrap V2 有什么优势?

html - 我可以将元素嵌套在表单的选择标签中吗?

ssl - 如何在 HTTPie 中使用 CA(如 curl 的 --cacert)

通过中间服务器 curl

php - 使用 PHP 从远程服务器下载多个图像(大量图像)

php - MySQL ISNULL 与 INNER JOIN

php - 与 PHP 数组相比,使用 MySQL 查询数组时获得不同的结果

javascript - 使用javascript和ajax从mysql获取数据时出错