我正在尝试从网站上抓取文本。有时,文本是用项目符号写的,有时只是纯文本。
项目符号中的文本 (XPath):/article/div[@class='border-bottom-grau'][1]/ul/li[1]
纯文本文本 (XPath):/article/div[@class='border-bottom-grau'][1]/p
我需要提取相应的文本(没有 div/ul/li/p 标签等)。这是我迄今为止尝试过的:info_Aufgabengebiet = info.xpath(".//article/div[@class='border-bottom-grau'][1][descendant::text()]").extract()
输出:见图片 Output
我还在最后尝试了后代或自我,一个/text() ,但都没有奏效。简单地说,我想提取所有文本,无论是项目符号还是纯文本。应该只添加 Pullet 点,也许带有“;”或者 ”,”。
任何帮助深表感谢
谢谢
最佳答案
您可以将 XPath 与组合条件一起使用
"/article/div[@class='border-bottom-grau'][1]/ul/li[1] | /article/div[@class='border-bottom-grau'][1]/p"
关于python - Scrapy/XPath 从不同的标签中提取文本 (<p> OR <li>),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66817706/