xpath - 如何使用 XPath 从抓取的 HTML 中解析作者姓名和书名？

您在下面看到的 HTML 是我从远程站点抓取的文本，按原样放入本地变量中。

现在我需要将 HTML 标签中的 authorName 和 bookTitle 解析为它们自己的变量，给定以下一致的抓取文本格式:

<p>
  William Faulkner - 'Light In August'
  <br/>
  William Faulkner - 'Sanctuary'
  <br/>
  William Faulkner - 'The Sound and the Fury'
</p>

是否可以在 XPath 中执行此操作？

最佳答案

是的。也很简单:

//p/text()

会给你三个独立的文本节点:

"
  William Faulkner - 'Light In August'
  ",
"
  William Faulkner - 'Sanctuary'
  ",
"
  William Faulkner - 'The Sound and the Fury'
"

请记住，前后空格(包括任何换行符)始终是文本节点的一部分。修剪结果。

我认为您不需要帮助将结果字符串拆分为作者和标题。

关于xpath - 如何使用 XPath 从抓取的 HTML 中解析作者姓名和书名？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3960901/

相关文章：

xml - XPath 查找重复属性？