python - Scrapy/XPath 从不同的标签中提取文本 (<p> OR <li>)

标签 python html xpath extract mixed

我正在尝试从网站上抓取文本。有时，文本是用项目符号写的，有时只是纯文本。
项目符号中的文本 (XPath):/article/div[@class='border-bottom-grau'][1]/ul/li[1]纯文本文本 (XPath):/article/div[@class='border-bottom-grau'][1]/p我需要提取相应的文本(没有 div/ul/li/p 标签等)。这是我迄今为止尝试过的:info_Aufgabengebiet = info.xpath(".//article/div[@class='border-bottom-grau'][1][descendant::text()]").extract()输出:见图片 Output
我还在最后尝试了后代或自我，一个/text() ，但都没有奏效。简单地说，我想提取所有文本，无论是项目符号还是纯文本。应该只添加 Pullet 点，也许带有“;”或者 ”，”。
任何帮助深表感谢
谢谢

最佳答案

您可以将 XPath 与组合条件一起使用

"/article/div[@class='border-bottom-grau'][1]/ul/li[1] | /article/div[@class='border-bottom-grau'][1]/p"

关于python - Scrapy/XPath 从不同的标签中提取文本 (<p> OR <li>)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66817706/

上一篇：c# - 是否可以根据其他复选框状态来选中/取消选中某个复选框？

下一篇：Java8 Function apply 方法及其实现

相关文章：

python - Pandas 根据 2 列删除重复项，有时会颠倒

xml - 如何根据另一个属性的值选择一个属性

python - 在 girdspec 的多列跨度子图中向左或向右对齐饼图

调用前的 Python 修饰函数

c# - 在 razor View 中显示格式化的 html

javascript - 如何将网页的部分iframe从服务器A发送到服务器B？

javascript - 在 Angular app.component.ts 中使用 jQuery 代码

javascript - 如果出现点击错误继续测试

python - Selenium 如何在某些目标类中获取href的内容

Python，添加 key :value to dictionary in parallelised loop