我从网站获取此代码:
import scrapy
class BrickSetSpider(scrapy.Spider):
name = "brickset_spider"
start_urls = ['http://brickset.com/sets/year-2016']
def parse(self, response):
SET_SELECTOR = '.set'
for brickset in response.css(SET_SELECTOR):
NAME_SELECTOR = 'h1 a ::text'
yield {
'name': brickset.css(NAME_SELECTOR).extract(),
}
名称是 extract() 方法的结果。这是检查元素(在 Chrome 中):
我想问一下,名字是10805的结果是:Around the World还是只有Around the World。如何做到这一点?
最佳答案
要获得“10805:环游世界”,请将产量更改为:
yield {
'name': " ".join(brickset.css(NAME_SELECTOR).extract()),
}
要获得“环游世界”,请将产量更改为:
yield {
'name': brickset.css(NAME_SELECTOR).extract()[-1],
}
关于python - 在 python scrapy 中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44945032/