xpath - 如何使用 XPath 从抓取的 HTML 中解析作者姓名和书名?

标签 xpath

您在下面看到的 HTML 是我从远程站点抓取的文本,按原样放入本地变量中。

现在我需要将 HTML 标签中的 authorNamebookTitle 解析为它们自己的变量,给定以下一致的抓取文本格式:

<p>
  William Faulkner - 'Light In August'
  <br/>
  William Faulkner - 'Sanctuary'
  <br/>
  William Faulkner - 'The Sound and the Fury'
</p>

是否可以在 XPath 中执行此操作?

最佳答案

是的。也很简单:

//p/text()

会给你三个独立的文本节点:

"
  William Faulkner - 'Light In August'
  ",
"
  William Faulkner - 'Sanctuary'
  ",
"
  William Faulkner - 'The Sound and the Fury'
"

请记住,前后空格(包括任何换行符)始终是文本节点的一部分。修剪结果。

我认为您不需要帮助将结果字符串拆分为作者和标题。

关于xpath - 如何使用 XPath 从抓取的 HTML 中解析作者姓名和书名?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3960901/

相关文章:

xml - XPath 查找重复属性?

php - 在 xpath 中选择多个条件

xpath - 如何编写 XPath 查询来匹配两个属性?

xml - 计算 XmlSpy 中与给定 XPath 表达式匹配的节点数

xml - 使用 xmllint 从 XML 文件中提取属性

php - 使用 php 跳过 xml feed 中的某些对象

python xlxml xpath表达式匹配属性中的子字符串

xslt - 使用 document() 在 XSLT 中交叉引用和扩充 XML 元素的问题

xml - 使用XSLT选择另一个节点中不存在的所有元素

java - 如何使用java/python从xml结构中获取匹配xpath的DOM结构