PHP DOM Parser - 获取两个已知 XPath 之间的所有节点

标签 php html dom xpath domparser

如何在 2 个已知的 XPath 之间选择所有 DOM 节点?

Xpath1 = html/body/div[2]/p
Xpath2 = html/body/div[2]/p/a[3]

DOM 结构:

<html>
<body> 
<div id="id3">
    <p id="p3">
        text1 
        <a href="#">
            goal
        </a>
        text2 
        <a href="#">
            Crowdrise
        </a>.
    </p>
</div>
</body>
</html>

解析器:

$dom = new DOMDocument();
$dom->loadHTML($domain);

$x = new DOMXPath($dom); 
$el = $x->query("....??");

所以,基本上是在寻找一种查询方法来选择两个 XPath 之间的所有节点。 我看到了几个类似的问题,但它们似乎与 XSLT 案例有关。

最佳答案

好问题。 没有通用的方法来做到这一点,因为它取决于第二个元素相对于第一个元素的位置。我的意思是,如果第二个元素是第一个元素的后代,或者它在另一个分支中——这两个元素是完全不同的。 所以我们需要做一个假设:

  • 假设第二条路径定义的第二个元素始终是第一条路径定义的第一个元素的后代。

我们的目标是获取第一个元素的所有后代元素(没有文本节点),而没有第二个元素的共享后代。

为此我们需要一个表达式:

el1 = All element 1 descendants.
el2 = All element 2 descendants including self. 
result = el1 [position() <= count( el1 ) - count( el2 )]

如您所见,我们正在构建一组前 N 个元素,直到我们到达第二个元素。

这是一个例子:

<?php

$dom = new DOMDocument();
$dom->loadHTML('<html>'
    . '         <body>'
    . '             <div>'
    . '                 <h1>shlomi</h1>'
    . '                 <p>'
    . '                     <span>goal1</span>'
    . '                     text1' 
    . '                     <a href="#">goal2</a>'
    . '                     text2'
    . '                     <a href="#"><span></span>Crowdrise</a>'
    . '                     .' 
    . '                 </p>'
    . '             </div>'
    . '         </body>'
    . '     </html>');

$x = new DOMXPath($dom); 

$path1 = "/html/body/div/p/descendant::*";               // all descendant elements without text
$path2 = "/html/body/div/p/a[2]/descendant-or-self::*";  // all descendant elements without text including self
$path3 = $path1."[position() <= count(".$path1.") - count(".$path2.")]"; 
$elList = $x->query($path3);

foreach ($elList as $node) {
      echo $node->nodeName." -> text: ".$node->textContent."<br />";
}

这将打印:

span -> text: goal1
a    -> text: goal2

注意 我正在使用 * 仅定位没有文本节点的元素 - 如果您希望所有节点都用 node() 替换它。

关于PHP DOM Parser - 获取两个已知 XPath 之间的所有节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33835443/

相关文章:

PHP json_decode() 用看似有效的 JSON 返回 NULL?

html - 如何从 HTML 表创建动态 UML 图表?

javascript - 更改 DOM 元素的代码行

php - 如何遍历 DOMNodeList 中的元素?

javascript - 动态家谱遍历 php javascript

php - 在套接字关闭之前,我对套接字的 fwrite 不会被刷新。如何改变?

php - cronjob 每分钟运行一次

javascript - 未捕获的 TypeError : $(. ..).nestedSortable 不是函数

html - 防止 CSS `column-span: all` 分流到页面底部

javascript - onchange 事件用于 DOM 创建的输入和 IE 7+8