python - xpath string() 从渲染中排除特定节点

标签 python dom xpath scrapy

我使用 scrapy 和 xpath 尝试在 DOM 中查找特定节点,并尝试将该部分呈现为字符串。这部分如下所示:

<p><strong>Description :</strong> SCP-3976 est l'appellation collective d'une série de manifestations
 sous la forme de meurtres apparents de la célèbre autrice de romans policiers Agatha Christie<sup 
class="footnoteref"><a id="footnoteref-1" href="javascript:;" class="footnoteref" 
onclick="WIKIDOT.page.utils.scrollToReference('footnote-1')">1</a></sup>. À ce jour, toutes les instances
 de SCP-3976 ont été localisées dans les zones rurales du territoire anglais et tous les composants de 
chaque instances se trouvaient dans un rayon de 50&nbsp;mètres. De plus, toutes les instances sont 
apparues entre 22h31 et 08h36, heure locale, bien qu'aucun enregistrement ni témoin de la manifestation 
d'une instance n'existent.</p>

使用以下代码

response.xpath("string(//p)").get()

我明白了

Description : SCP-3976 est l'appellation collective d'une série de manifestations sous la forme de
 meurtres apparents de la célèbre autrice de romans policiers Agatha Christie1. À ce jour, toutes les 
instances de SCP-3976 ont été localisées dans les zones rurales du territoire anglais et tous les 
composants de chaque instances se trouvaient dans un rayon de 50\xa0mètres. De plus, toutes les instances 
sont apparues entre 22h31 et 08h36, heure locale, bien qu'aucun enregistrement ni témoin de la 
manifestation d'une instance n'existent.

这是一个相当不错的结果。只是,您可以看到 Agatha Christie 旁边的那个是1 <sup>的元素,我想通过 xpath 来防止它出现。我可以这样做吗?

谢谢

最佳答案

尝试:

response.xpath('//p/text()').extract()

您可能需要从新行等中剥离输出,以使其达到正确的形状,但它会排除 1

关于python - xpath string() 从渲染中排除特定节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60173012/

相关文章:

python - 如何将数据框中的周期值替换为空或其他值?

javascript - 未捕获的类型错误 : Cannot read property 'lastChild' of null

python-3.x - Python - 请求、lxml 和 xpath 不起作用

python - IRC 机器人 Python |识别昵称

python 将 stderr 和 stdout 记录到文件中

javascript - 创建新 DOM 元素的最佳方式

AND 和 OR 的 xpath 逻辑运算符优先级,不带括号

c# - 如何将 XPath 与不带前缀的默认命名空间一起使用?

python - 属性错误 : 'str' object has no attribute 'dim' in pytorch

javascript - 使用通配符 ID 选择 div