python - 从给定内容开始的 HTML 表格单元格内容的 XPath

标签 python html xml xpath html-parsing

这是表格格式的 HTML:

<tr><td style="width: 150px;">Development Name:</td><td><b>Bellewoods</b></td></tr>
<tr><td style="width: 150px;">Property Type:</td><td><b>Executive Condominium</b></td></tr>
<tr><td style="width: 150px;">Developer:</td><td><b>Qingjian Realty (Woodlands) Pte Ltd</b></td></tr>
<tr><td style="width: 150px;">Tenure:</td><td><b>99-year Leasehold</b></td></tr>
<tr><td style="width: 150px;"># of Floors:</td><td><b>30</b></td></tr>
<tr><td style="width: 150px;"># of Units:</td><td><b>561</b></td></tr>

我想在 csv 二进制文件中提取这些列:

Development Name,
Property Type,
Developer,
Tenure,
Floors,
Units

我正在使用这个 XPath,但它不起作用:

'//tr//td[@style="width: 150px;" and text()="Development Name:"]//td//b'

最佳答案

检查第一个 td 的文本并得到 following td sibling :

//tr/td[. = "Development Name:"]/following-sibling::td/b/text()

关于python - 从给定内容开始的 HTML 表格单元格内容的 XPath,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30143756/

相关文章:

python - 跟踪joblib.Parallel执行的进度

python - 如果子进程结束处理则运行代码

javascript - 使用单个按键从 Vim 中的 HTML 文件跳转到 css 文件中的 CSS 选择器

html - 导航栏未正确放置在包裹内,

xml - 除了使用扩展之外,如何在 XSLT 中处理自定义命名空间?

python - 使用 python 代码访问 mysql 数据库被拒绝,我对此拥有 super 用户权限

python - 使用 readlines() 是比创建列表更好的方法吗?

jquery - 表单导致链接无法正常工作?

python - 如何在 BeautifulSoup.BeautifulStoneSoup 中维护区分大小写的标签?

java - 具有多个模式的 WSDL 的自定义解析和打印方法