xpath - 使用scrapy从元标记中提取关键字

标签 xpath web-scraping scrapy meta-tags

我正在尝试使用 scrapy 为学校项目下载一些内容。 我想获取每个页面的关键字列表,然后将其存储在数据库中。这就是我到目前为止所得到的。

scrapy shell http://news.nationalgeographic.com/2015/03/150318-pitcairn-marine-reserve-protected-area-ocean-conservation/

>>> response.xpath('//title/text()').extract()

[u'World\u2019s Largest Single Marine Reserve Created in Pacific']

>>> response.xpath("//meta[@name='keywords']")[0].extract()

u'<meta name="keywords" content="ocean life, conservationists, marine biodiversity, marine sanctuaries, wildlife conservation, marine protected areas, mpas, reserves, sanctuaries, ocean conservation">'

我想做的只是从元标记中提取内容,其中 name='keywords'

谢谢!

最佳答案

只需添加 /@content 即可提取 content 属性:

response.xpath("//meta[@name='keywords']/@content")[0].extract()

关于xpath - 使用scrapy从元标记中提取关键字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36240581/

相关文章:

python - 如何在我的 Scrapy 蜘蛛代码中使用项目加载器?

java - 无法使用 Selenium(java) 从网站抓取错误消息并在 Eclipse 控制台中打印

由于命名空间为空,Python XPath lxml 无法读取 SVG 路径元素?

java - 如何从JSoup中的无序列表中获取img元素的绝对url

php - 在 PHP 中登录 Javascript

python - 为需要身份验证的网页使用 selenium 进行 Scrapy

xpath - Scrapy跟随javascript输入按钮

德尔福/MSXML : XPath queries fail

python - scrapy错误: Error processing {'image_urls' :

python - 类型错误 : 'Request' object is not subscriptable