python - Scrapy,如何提取h3内容?

标签 python css xpath scrapy web-crawler

我想提取每个 div class="summary" 中的网页内容。 在每个 summary div 中,我想提取 div 中每个类中的数据。

以下是我的片段。

questions = Selector(response).xpath('//div[@class="summary"]')
for question in questions:
    item = StackItem()
    # get the hyperlink of h3 text
    item['title'] = question.xpath('a[@h3]/text()').extract()[0]
    yield item

我应该如何在我的代码中编写 xpath 内容?

enter image description here enter image description here

最佳答案

您的第二个 XPath 查找 a 元素,该元素是 div[@class="summary"] 的直接子元素并且具有属性 h3,它在发布的 HTML 中不存在。

div 获取 h3 中的 a 元素的正确 XPath 如下:

h3/a/text()

关于python - Scrapy,如何提取h3内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37544295/

相关文章:

html - 如何仅使用百分比测量将某个东西变成正方形

java - xpath 在 java 中不工作

python - 使用 Pug (Jade) 和 Jinja2 诱人的语法

javascript - 如何使用按钮或开关更改整个 css 文件?

html - Twitter bootstrap 在小型设备上隐藏元素

xml - 使用 xml_split 根据 Perl 正则表达式或 XPath 表达式拆分 XML 文件

css - 如何在 map 中随机定位光标

python - 使用视差图进行距离测量

python - 卸载 pip 未使用的包

python - 为什么局部变量访问比 Python 中的类成员访问快?