python - (错误)理解生成器

标签 python python-2.7 recursion python-requests generator

我想一次从定期刷新的列表中提取一个代理,对此我没有任何问题。

有些代理不好,我希望使用列表中的下一个。然而,这就是我的生成器发挥作用的地方,虽然我可以通过第一次调用 .next() 让生成器滚动,但第二次调用它时,我得到相同的值!

显然我错过了理解生成器如何工作的关键部分。

我的生成器代码位于 ProxyHandler 类中:

class ProxyHandler:

    def __init__(self):
        self.proxies = list()
        self.current = dict()

    def get_proxies(self):
        """ Retrieves proxies """

    def __len__(self):
        return len(self.proxies)

    def yield_proxy(self):
        if not self.proxies:
            print 'Created new proxy list'
            self.get_proxies()  # This populates self.proxies which is a list of tuples where the 0th element is the host and the 1st element is the port
        for p in self.proxies:
            try:
                proxy = {'http': 'http://%s:%s' % (p[0], p[1])}  # Formatted to python's request lib proxy format
                self.current = proxy
                yield proxy
            except StopIteration:
                print 'Reached end of proxy list'
                self.current = {}
                self.get_proxies()
                yield self.yield_proxy()

及用法:

def get_response(self, url):
    proxy = self.proxy_handler.current
    if proxy == {}:
        proxy = self.proxy_handler.yield_proxy().next()
    print 'Current proxy -', proxy
    response = url_request(url, proxy=proxy)  # url_request() is basically a modified version of python's requests
    print response
    if response: # url_request() returns true if status code == 200
        return response, proxy
    gen = self.proxy_handler.yield_proxy()
    gen.next()
    return self.get_ebay_response(url)

最佳答案

您每次都重新创建生成器:

gen = self.proxy_handler.yield_proxy()
gen.next()

新的生成器从头开始;单独的生成器不共享状态。将生成器存储在某处,然后重用该对象来获取新值。

您也许可以将该生成器对象存储为 self 上的属性:

proxy_generator = None

def get_response(self, url):
    if not self.proxy:
        if self.proxy_generator is None
            self.proxy_generator = self.proxy_handler.yield_proxy()
        self.proxy = next(self.proxy_generator)
    proxy = self.proxy

我使用了 next() function以保持您的代码与 Python 3 向前兼容(您迟早必须切换到 Python 3,Python 2 现在是一种遗留语言)。

接下来,您的生成器 try catch 永远不会抛出的异常:

for p in self.proxies:
    try:
        proxy = {'http': 'http://%s:%s' % (p[0], p[1])}  # Formatted to python's request lib proxy format
        self.current = proxy
        yield proxy
    except StopIteration:
        print 'Reached end of proxy list'
        self.current = {}
        self.get_proxies()
        yield self.yield_proxy()

在您的 try 中没有正在访问的生成器;你把这份工作交给了for循环self.proxies ,和for 已经知道如何处理迭代器(它将捕获 StopIterator 来结束循环)。和self.proxies无论如何只是一个列表。

如果您想让循环在您的代理上循环,请以无限的方式进行 while True循环:

while True:
    for p in self.proxies:
        proxy = {'http': 'http://%s:%s' % (p[0], p[1])}  # Formatted to python's request lib proxy format
        self.current = proxy
        yield proxy

    print 'Reached end of proxy list'
    self.current = {}
    self.get_proxies()

我不知道为什么你认为你需要清除 self.current在那里并重新获取代理。生成器上的元组从未改变,那么为什么要重新获取呢?即使您从顶部再次开始循环,您当前的代理仍然有效。我会删除最后三行。

您可以进一步简化您的代码。生成器没有长度,因此 __len__不需要方法。该方法充其量会产生错误信息;你的self.proxies在开始迭代之前,属性为空,因此对象的长度从 0 开始。完全删除该方法。

接下来,您可以为您的对象指定 __iter__生成生成器的方法:

class ProxyHandler:
    def __init__(self):
        self.proxies = []
        self.current = {}

    def get_proxies(self):
        """ Retrieves proxies """

    def __iter__(self):
        if not self.proxies:
            print 'Created new proxy list'
            self.get_proxies()
        while True:
            for p in self.proxies:
                proxy = {'http': 'http://%s:%s' % (p[0], p[1])} 
                self.current = proxy
                yield proxy

这使得整个ProxyHandler实例一个可迭代对象,只需使用 iter(self.proxy_handler)而不是self.proxy_handler.yield_proxy()让生成器生成所有这些值。

最后但并非最不重要的一点是,您可以将生成器表达式与 itertools.cycle() 一起使用来完成整个事情。使该迭代器无穷无尽。您必须删除 current但是,这并不重要,因为当您的生成器刚刚生成当前对象时,您实际上并不需要该属性无论如何:

from itertools import cycle

class ProxyHandler:
    def __init__(self):
        self.proxies = []

    def get_proxies(self):
        """ Retrieves proxies """

    def __iter__(self):
        if not self.proxies:
            print 'Created new proxy list'
            self.get_proxies()
        return cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)

生成器表达式生成相同类型的对象。

这一切仍然需要iter(self.proxy_generator) ;您可以通过 __iter__ 来创建实例迭代器(而不是可迭代器)返回self ,并添加 next()方法;在第一次调用时将上面的生成器表达式移动到属性,然后传递 next()调用它来生成值:

class ProxyHandler:
    def __init__(self):
        self.proxies = []
        self._gen = None

    def get_proxies(self):
        """ Retrieves proxies """

    def __iter__(self):
        return self

    def next(self):
        if not self._gen:
            self.get_proxies()
            self._gen = cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)
        return next(self._gen)

    __next__ = next  # Python 3 compatibility

现在您每次都可以使用`next(self.proxy_handler):

def get_response(self, url):
    if not self.proxy:
        self.proxy = next(self.proxy_handler)
    proxy = self.proxy

关于python - (错误)理解生成器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43712367/

相关文章:

python - 在python中将stdout重定向到 "nothing"

javascript - 这个递归函数是怎么结束的呢?

python - django 表单单选输入布局

python - 使用变量时输入错误

python - python 服务器代码中的套接字错误

haskell - 用于在构建列表时累积值的递归状态单子(monad)?

PHP数组,使用 'depth'的键将数组项的深度递归地添加到数组中

python - fstat() 是安全的(沙盒)操作吗?

python - Django QR 代码生成 PIL 图像使用 S3 保存不起作用

python - 无法在 python 中使用 selenium webdriver 单击链接