python - 使用 XPath 解析粗体标记后的文本

我在 Python 中使用 Xpath 提取文本。正文结构如下:

<b>Field1:</b>" Value1" <br>
<b>Field2:</b>" Value2" <br><br>
<b>Field3:</b>" Value3" <br><br>
<b>Field4:</b>" Value4" <br>
<b>Field5:</b>" Value5" <br><br>

注意换行符(br标签)的数量可以不一致

我要提取:

Field 1: Value 1
Field 2: Value 2
Field 3: Value 3
Field 4: Value 4
Field 5: Value 5

目前我的 XPath//b/text() 正在提取字段而不是值。

请帮忙。

最佳答案

你可以用BeautifulSoup来解决HTML 解析器，它是 .next_sibling :

from bs4 import BeautifulSoup

data = """
<div>
<b>Field1:</b>" Value1" <br>
<b>Field2:</b>" Value2" <br><br>
<b>Field3:</b>" Value3" <br><br>
<b>Field4:</b>" Value4" <br>
<b>Field5:</b>" Value5" <br><br>
</div>
"""
soup = BeautifulSoup(data, 'html.parser')

for b in soup.find_all("b"):
    label = b.get_text(strip=True)
    value = b.next_sibling.strip()

    print(label, value)

或者，使用 lxml.html和 following-sibling轴:

from lxml.html import fromstring

data = """
<div>
<b>Field1:</b>" Value1" <br>
<b>Field2:</b>" Value2" <br><br>
<b>Field3:</b>" Value3" <br><br>
<b>Field4:</b>" Value4" <br>
<b>Field5:</b>" Value5" <br><br>
</div>
"""

root = fromstring(data)
for b in root.xpath("//b"):
    label = b.text_content()
    value = b.xpath("following-sibling::text()")[0].strip()

    print(label, value)

关于python - 使用 XPath 解析粗体标记后的文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36101772/

python - 使用 XPath 解析粗体标记后的文本

上一篇：python - IO错误 : File not open for writing - Python

下一篇：python - 将列表附加到字典