目前我正在抓取文章新闻网站,在获取其主要内容的过程中,我遇到了很多人在其中嵌入了如下推文的问题:
我将 XPath 表达式与 XPath helper 一起使用(chrome 插件) 以测试我是否可以获得内容,然后将此表达式添加到scrapy python,但元素位于 #shadow-root
中元素似乎超出了 DOM 的范围,我正在寻找一种方法来获取这些类型元素中的内容,最好使用 XPath。
最佳答案
大多数网页抓取工具,包括 Scrapy,都不支持 Shadow DOM,因此您根本无法访问 Shadow 树中的元素。
即使网络爬虫确实支持 Shadow DOM,XPath 也根本不支持。如 CSS Scoping spec 中所述,仅在某种程度上支持选择器。 .
关于xpath - Xpath 表达式可以访问 shadow-root 元素吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49763626/