python - Scrapy 爬虫不适用于网站,我得到部分结果

标签 python scrapy web-crawler partial

我是 Scrapy 和 Python 的新手。我一直致力于从 2 个网站提取数据,如果我直接使用 python 来提取数据,它们会工作得非常好。我已经调查过,我想抓取这些网站:

  1. homedepot.com.mx/comprar/es/miguel-aleman/home(完美运行)
  2. vallenproveedora.com.mx/(不起作用)

有人可以告诉我如何使第二个链接起作用吗?

我看到这条消息:

DEBUG: Crawled (200) allenproveedora.com.mx/> (referer: None) ['partial']

但我不知道如何解决它。

我将不胜感激任何帮助和支持。这是代码和日志:

items.py

from scrapy.item import Item, Field

class CraigslistSampleItem(Item):
    title = Field()
    link = Field()

Test.py(蜘蛛文件夹)

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist_sample.items import CraigslistSampleItem

class MySpider(BaseSpider):
    name = "craig"
    allowed_domains = ["vallenproveedora.com.mx"]
    #start_urls = ["http://www.homedepot.com.mx/webapp/wcs/stores/servlet/SearchDisplay?searchTermScope=&filterTerm=&orderBy=&maxPrice=&showResultsPage=true&langId=-5&beginIndex=0&sType=SimpleSearch&pageSize=&manufacturer=&resultCatEntryType=2&catalogId=10052&pageView=table&minPrice=&urlLangId=-5&storeId=13344&searchTerm=guante"]
    start_urls = ["http://www.vallenproveedora.com.mx/"]
    def parse(self, response):
        titles = response.xpath('//ul/li')
        for titles in titles:
            title = titles.select("a/text()").extract()
            link = titles.select("a/@href").extract()
            print (title, link)

最佳答案

您在日志中看到 ['partial'] 是因为 vallenproveedora.com.mx 上的服务器未在其响应中设置 Content-Length header ;运行curl -I 亲自查看。有关 partial 标志原因的更多详细信息,请参阅 my answer here .

但是,您实际上不必担心这一点。响应正文就在那里,Scrapy 将解析它。您真正遇到的问题是 XPath //ul/li/a 没有选择任何元素。您应该查看页面源代码并相应地修改您的选择器。我建议为每个站点编写一个特定的蜘蛛,因为站点通常需要不同的选择器。

关于python - Scrapy 爬虫不适用于网站,我得到部分结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39067592/

相关文章:

Python:遍历列表列表中的列以查找回文

python - 使用 selenium 登录 stackoverflow 可以正常工作,但使用 scrapy python 则不行。如何使用 headless 浏览登录?

filesystems - 如何制作nutch crawl文件系统?

python - 将SQLalchemy查询结果传递给scrapy中的start_urls

hadoop - Nutch + Solr-清洁需要很长时间才能完成

c - 在 C 中解析 HTML 文件 - libxml2 的替代方案

python - 用 Pandas 调整子图布局

python - 如何统计某些条件下的某些数据

python - Sphinx - 找不到语言 fr、cs 等的分词器

python - scrapy安装错误