python - Scrapy，如何提取h3内容？

我想提取每个 div class="summary" 中的网页内容。在每个 summary div 中，我想提取 div 中每个类中的数据。

以下是我的片段。

questions = Selector(response).xpath('//div[@class="summary"]')
for question in questions:
    item = StackItem()
    # get the hyperlink of h3 text
    item['title'] = question.xpath('a[@h3]/text()').extract()[0]
    yield item

我应该如何在我的代码中编写 xpath 内容？

最佳答案

您的第二个 XPath 查找 a 元素，该元素是 div[@class="summary"] 的直接子元素并且具有属性 h3，它在发布的 HTML 中不存在。

从 div 获取 h3 中的 a 元素的正确 XPath 如下:

h3/a/text()

关于python - Scrapy，如何提取h3内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37544295/

上一篇：javascript - 如何禁用 div 元素内的 anchor 标记 onclick 事件？

下一篇：JavaScript 轮播不工作

相关文章：

html - 如何仅使用百分比测量将某个东西变成正方形

java - xpath 在 java 中不工作

python - 使用 Pug (Jade) 和 Jinja2 诱人的语法

javascript - 如何使用按钮或开关更改整个 css 文件？

html - Twitter bootstrap 在小型设备上隐藏元素

xml - 使用 xml_split 根据 Perl 正则表达式或 XPath 表达式拆分 XML 文件

css - 如何在 map 中随机定位光标

python - 使用视差图进行距离测量

python - 卸载 pip 未使用的包

python - 为什么局部变量访问比 Python 中的类成员访问快？