python - 动态组装 scrapy GET 请求字符串

标签 python scrapy

我一直在使用 firebug,我有以下字典来查询 api。

url = "htp://my_url.aspx#top"

querystring = {"dbkey":"x1","stype":"id","s":"27"}

headers = {
    'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    'upgrade-insecure-requests': "1",
    'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 
    }

对于 python 请求,使用它非常简单:

import requests
response = requests.request("GET", url, headers=headers, params=querystring)
print(response.text)

我如何在 Scrapy 中使用它们?我一直在阅读 http://doc.scrapy.org/en/latest/topics/request-response.html我知道以下内容适用于帖子:

        r = Request(my_url, method="post",  headers= headers, body=payload, callback=self.parse_method)

我试过:

    r = Request("GET", url, headers=headers, body=querystring, callback=self.parse_third_request)

我得到:

r = Request("GET", url, headers=headers, body=querystring, callback=self.parse_third_request)
TypeError: __init__() got multiple values for keyword argument 'callback'

编辑:

改为:

    r = Request(method="GET", url=url, headers=headers, body=querystring, callback=self.parse_third_request)

现在得到:

  File "C:\envs\r2\tutorial\tutorial\spiders\parker_spider.py", line 90, in parse_second_request
    r = Request(method="GET", url=url, headers=headers, body=querystring, callback=self.parse_third_request)
  File "C:\envs\virtalenvs\teat\lib\site-packages\scrapy\http\request\__init__.py", line 26, in __init__
    self._set_body(body)
  File "C:\envs\virtalenvs\teat\lib\site-packages\scrapy\http\request\__init__.py", line 68, in _set_body
    self._body = to_bytes(body, self.encoding)
  File "C:\envs\virtalenvs\teat\lib\site-packages\scrapy\utils\python.py", line 117, in to_bytes
    'object, got %s' % type(text).__name__)
TypeError: to_bytes must receive a unicode, str or bytes object, got dict

编辑 2:

我现在有:

    yield Request(method="GET", url=url, headers=headers, body=urllib.urlencode(querystring), callback=self.parse_third_request)

def parse_third_request(self, response):
    from scrapy.shell import inspect_response
    inspect_response(response, self)
    print("hi")
    return None

没有错误,但是在 shell 中,当我执行“response.url”时,我只得到没有 get 参数的基本 url。

最佳答案

查看Request初始化方法的签名:

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

GET 您的情况中的字符串用作 callback 参数的位置值。

使用关键字参数代替方法(虽然GET是默认的):

r = Request(url, method="GET", headers=headers, body=querystring, callback=self.parse_third_request)

关于python - 动态组装 scrapy GET 请求字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37632965/

相关文章:

python - 如何从字符串列表中提取数字?

python - Scikit学习中的随机状态(伪随机数)

python - 在类中捕获异常

python - Scrapy::如何获取导出到 .csv 的异常请求?

python - 使用 scrapy 抓取特定网站时出现 "Too many requests"错误

python - Scrapy 忽略 allowed_domains?

python - Scrapy 不下载图像并出现管道错误

python - 在 Python 生成器中访问局部变量

Python数据框: Calculating Confidence or Prediction Intervals Using Groupby on One Column

python - scrapy - 项目加载器 - 默认处理器