python - 使用 Scrapy 抓取单个链接

标签 python web-scraping beautifulsoup scrapy

我正在 dior.com 上抓取其产品。 head/script 为我提供了除产品描述之外所需的所有字段。要抓取描述,我需要点击链接(下面代码中的 url 变量)。我熟悉的唯一方法是使用 BeautifulSoup。我可以只使用Scrapy来解析它吗? 谢谢大家。

class DiorSpider(CrawlSpider):
    name = 'dior'
    allowed_domains = ['www.dior.com']
    start_urls = ['https://www.dior.com/en_us/']
    rules = (
        Rule(LinkExtractor(allow=(r'^https?://www.dior.com/en_us/men/clothing/new-arrivals.*',)), callback='parse_file')
    )

    def parse_file(self, response):
        script_text = response.xpath("//script[contains(., 'window.initialState')]").extract_first()
        blocks = extract_blocks(script_text)
        for block in blocks:
            sku = re.compile(r'("sku":)"[a-zA-Z0-9_]*"').finditer(block)
            url = re.compile(r'("productLink":{"uri":)"[^"]*').finditer(block)
            for item in zip(sku, url):
                scraped_info = {
                    'sku': item[0].group(0).split(':')[1].replace('"', ''),
                    'url': 'https://www.dior.com' + item[1].group(0).split(':')[2].replace('"', '')
                }

                yield scraped_info

最佳答案

如果您需要从第二个请求中提取其他信息,您应该生成一个包含您已在 Request.meta 中提取的信息的 URL 请求,而不是在那里生成数据。属性。

from scrapy import Request

# …

    def parse_file(self, response):
        # …
        for block in blocks:
            # …
            for item in zip(sku, url):
                # …
                yield Request(url, callback=self.parse_additional_information, meta={'scraped_info': scraped_info}

    def parse_additional_information(self, response):
        scraped_info = response.meta['scraped_info']
        # extract the additional information, add it to scraped_info
        yield scraped_info

关于python - 使用 Scrapy 抓取单个链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53904768/

相关文章:

python - 刮痧用美汤和 Selenium 问题

python - 从链接数组中抓取 HTML

python - 如何使用 beautiful soup 来抓取网站来迭代并获取所有值?

python - 使用 Beautifulsoup 从 url 中提取链接

python - 在 TensorFlow 中实现重步函数

python - tf.image.resize_bilinear() - 当 align_corners=False 时

python - 使用 Bottle 上传和处理 CSV 文件;可能的编码问题

python - 在 Python 中如何将数字转换为混合列表中的 float

python - 无法同时从两个不同深度刮取不同字段

python - 从 HTML 页面获取带有特定关键字的 <li> - Python