python - Scrapy 返回的结果比预期多

标签 python json web-scraping scrapy web-crawler

这是问题的延续:Extract from dynamic JSON response with Scrapy

我有一个 Scrapy 蜘蛛,可以从 JSON 响应中提取值。它运行良好,提取了正确的值,但不知何故它进入循环并返回比预期更多的结果(重复结果)。

例如,对于 test.txt 文件中提供的 17 个值,它会返回 289 结果,这意味着比预期多17 倍

蜘蛛内容如下:

import scrapy
import json
from whois.items import WhoisItem

class whoislistSpider(scrapy.Spider):
    name = "whois_list"
    start_urls = []
    f = open('test.txt', 'r')
    global lines
    lines = f.read().splitlines()
    f.close()
    def __init__(self):
        for line in lines:
            self.start_urls.append('http://www.example.com/api/domain/check/%s/com' % line)

    def parse(self, response):
        for line in lines:
            jsonresponse = json.loads(response.body_as_unicode())
            item = WhoisItem()
            domain_name = list(jsonresponse['domains'].keys())[0]
            item["avail"] = jsonresponse["domains"][domain_name]["avail"]
            item["domain"] = domain_name
            yield item

items.py 内容如下

import scrapy

class WhoisItem(scrapy.Item):
    avail = scrapy.Field()
    domain = scrapy.Field()

下面的 pipelines.py

class WhoisPipeline(object):
    def process_item(self, item, spider):
        return item

预先感谢您的所有回复。

最佳答案

parse函数应该是这样的:

def parse(self, response):
    jsonresponse = json.loads(response.body_as_unicode())
    item = WhoisItem()
    domain_name = list(jsonresponse['domains'].keys())[0]
    item["avail"] = jsonresponse["domains"][domain_name]["avail"]
    item["domain"] = domain_name
    yield item

请注意,我删除了 for 循环。

发生了什么:对于每个响应,您都会循环并解析它 17 次。 (因此产生17*17的记录)

关于python - Scrapy 返回的结果比预期多,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38315087/

相关文章:

python - 使用 python 抓取具有多个部分的页面

python - 有什么方法可以使用 openpyxl 获取 .xlsx 工作表中的行数和列数?

python - 用正则表达式替换单词列表

python - 将此函数绘制为累积分布图

java - htmlUnit - 是否可以只执行特定的 JS 函数?

html - 使用 R 提取 html 文本 - 无法访问某些节点

python - np.polyfit 做什么并返回?

javascript - 如何从JSON对象创建表?

java - 在Python中解析序列化的Java对象

jquery - 如何根据数字前面是 "+"还是 "-"来设置数字的字体颜色?