xpath - Xpath 表达式可以访问 shadow-root 元素吗?

标签 xpath web-scraping scrapy shadow-dom

目前我正在抓取文章新闻网站,在获取其主要内容的过程中,我遇到了很多人在其中嵌入了如下推文的问题:

enter image description here

我将 XPath 表达式与 XPath helper 一起使用(chrome 插件) 以测试我是否可以获得内容,然后将此表达式添加到scrapy python,但元素位于 #shadow-root 中元素似乎超出了 DOM 的范围,我正在寻找一种方法来获取这些类型元素中的内容,最好使用 XPath。

最佳答案

大多数网页抓取工具,包括 Scrapy,都不支持 Shadow DOM,因此您根本无法访问 Shadow 树中的元素。

即使网络爬虫确实支持 Shadow DOM,XPath 也根本不支持。如 CSS Scoping spec 中所述,仅在某种程度上支持选择器。 .

关于xpath - Xpath 表达式可以访问 shadow-root 元素吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49763626/

相关文章:

xml - 重新初始化 xslt 变量

python - 已完成的抓取电子邮件文件

python - ScraPy蜘蛛爬行但不导出

javascript - 如何在 R 中抓取 javascript 表?

python - python3创建scrapy项目的方法

sql - 在类型化的 xml 列上选择节点的原子值

java - xpath 第一个可用值

symfony - 使用 Guzzle 从 html 中提取信息

python - Scrapy 获取所有子项/忽略 <br>?

python - 无法通过python中的请求访问网页