python - 使用来自同一 URL 的多个 POST 数据进行抓取

标签 python loops web-scraping screen-scraping scrapy

我已经创建了一个蜘蛛程序,用于收集公司名称与匹配电话号码的列表。然后将其保存到 CSV 文件中。

然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个站点抓取数据。我希望它循环遍历相同的起始 URL,但只是抓取每个电话号码产生的数据,直到 CSV 文件中没有更多号码为止。

这是我目前得到的:

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector
from scrapy import log
import sys
from scrapy.shell import inspect_response
from btw.items import BtwItem
import csv

class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["siteToScrape.com"]
    start_urls = ["http://www.siteToScrape.com/broadband/broadband_checker"] 

    def parse(self, response):
        phoneNumbers = ['01253873647','01253776535','01142726749']

        return [FormRequest.from_response(response,formdata={'broadband_checker[phone]': phoneNumbers[1]},callback=self.after_post)]


    def after_post(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//div[@id="results"]')
       items = []
       for site in sites:
           item = BtwItem()

           fttcText = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()

           # Now we will change the text to be a boolean value
           if fttcText[0].count('not') > 0:
               fttcEnabled=0
           else:
               fttcEnabled=1

           item['fttcAvailable'] = fttcEnabled
           items.append(item)
       return items

当时我一直在尝试通过列表(phoneNumbers)进行循环,但到目前为止我什至还没有设法让它工作。一旦我知道该怎么做,我就可以自己将其从 CSV 文件中提取出来。在当前状态下,它仅使用列表中索引为 1 的 phoneNumber。

最佳答案

假设您有一个包含电话的 phones.csv 文件:

01253873647
01253776535
01142726749

这是你的蜘蛛:

import csv
from scrapy.item import Item, Field

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector


class BtwItem(Item):
    fttcAvailable = Field()
    phoneNumber = Field()


class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["samknows.com"]

    def start_requests(self):
        yield Request("http://www.samknows.com/broadband/broadband_checker", self.parse_main_page)

    def parse_main_page(self, response):
        with open('phones.csv', 'r') as f:
            reader = csv.reader(f)
            for row in reader:
                phone_number = row[0]
                yield FormRequest.from_response(response,
                                                formdata={'broadband_checker[phone]': phone_number},
                                                callback=self.after_post,
                                                meta={'phone_number': phone_number})

    def after_post(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//div[@id="results"]')

        phone_number = response.meta['phone_number']
        for site in sites:
            item = BtwItem()

            fttc = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()
            item['phoneNumber'] = phone_number
            item['fttcAvailable'] = 'not' in fttc[0]

            yield item

这是运行后抓取的内容:

{'fttcAvailable': False, 'phoneNumber': '01253873647'}
{'fttcAvailable': False, 'phoneNumber': '01253776535'}
{'fttcAvailable': True, 'phoneNumber': '01142726749'}

想法是使用 start_requests 抓取主页,然后在回调中逐行读取 csv 文件并yield 新的 Requests 每个电话号码(csv 行)。此外,通过 meta 字典将 phone_number 传递给回调,以便将其写入 Item 字段(我认为你需要这个来区分项目/结果)。

希望对您有所帮助。

关于python - 使用来自同一 URL 的多个 POST 数据进行抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17682463/

相关文章:

python - 使用python计算矢量投影

python - Scrapy 使用 css 选择器抓取嵌套文本

loops - 如何在clojure中的每一行打印数字列表?

python - 有没有办法使用 Python 或某些 NLP 技术从字符串中删除不需要的空格? (不是尾随或额外的空格)

python - 将数据帧合并到有序列表中

python - 我希望它打印 hello_ch 变量,但我找不到方法 中文翻译工具

javascript - forEach 在 iOS Safari 上不起作用

java - 使用循环引用不同的editText ID

javascript - 保护我的 API

html - 通过 F5 或 F8 运行一次/两次但随后出现多个错误的代码