我想一次从定期刷新的列表中提取一个代理,对此我没有任何问题。
有些代理不好,我希望使用列表中的下一个。然而,这就是我的生成器发挥作用的地方,虽然我可以通过第一次调用 .next() 让生成器滚动,但第二次调用它时,我得到相同的值!
显然我错过了理解生成器如何工作的关键部分。
我的生成器代码位于 ProxyHandler
类中:
class ProxyHandler:
def __init__(self):
self.proxies = list()
self.current = dict()
def get_proxies(self):
""" Retrieves proxies """
def __len__(self):
return len(self.proxies)
def yield_proxy(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies() # This populates self.proxies which is a list of tuples where the 0th element is the host and the 1st element is the port
for p in self.proxies:
try:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
except StopIteration:
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
yield self.yield_proxy()
及用法:
def get_response(self, url):
proxy = self.proxy_handler.current
if proxy == {}:
proxy = self.proxy_handler.yield_proxy().next()
print 'Current proxy -', proxy
response = url_request(url, proxy=proxy) # url_request() is basically a modified version of python's requests
print response
if response: # url_request() returns true if status code == 200
return response, proxy
gen = self.proxy_handler.yield_proxy()
gen.next()
return self.get_ebay_response(url)
最佳答案
您每次都重新创建生成器:
gen = self.proxy_handler.yield_proxy()
gen.next()
新的生成器从头开始;单独的生成器不共享状态。将生成器存储在某处,然后重用该对象来获取新值。
您也许可以将该生成器对象存储为 self
上的属性:
proxy_generator = None
def get_response(self, url):
if not self.proxy:
if self.proxy_generator is None
self.proxy_generator = self.proxy_handler.yield_proxy()
self.proxy = next(self.proxy_generator)
proxy = self.proxy
我使用了 next()
function以保持您的代码与 Python 3 向前兼容(您迟早必须切换到 Python 3,Python 2 现在是一种遗留语言)。
接下来,您的生成器 try catch 永远不会抛出的异常:
for p in self.proxies:
try:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
except StopIteration:
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
yield self.yield_proxy()
在您的 try
中没有正在访问的生成器;你把这份工作交给了for
循环self.proxies
,和for
已经知道如何处理迭代器(它将捕获 StopIterator
来结束循环)。和self.proxies
无论如何只是一个列表。
如果您想让循环在您的代理上循环,请以无限的方式进行 while True
循环:
while True:
for p in self.proxies:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
我不知道为什么你认为你需要清除 self.current
在那里并重新获取代理。生成器上的元组从未改变,那么为什么要重新获取呢?即使您从顶部再次开始循环,您当前的代理仍然有效。我会删除最后三行。
您可以进一步简化您的代码。生成器没有长度,因此 __len__
不需要方法。该方法充其量会产生错误信息;你的self.proxies
在开始迭代之前,属性为空,因此对象的长度从 0 开始。完全删除该方法。
接下来,您可以为您的对象指定 __iter__
生成生成器的方法:
class ProxyHandler:
def __init__(self):
self.proxies = []
self.current = {}
def get_proxies(self):
""" Retrieves proxies """
def __iter__(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies()
while True:
for p in self.proxies:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])}
self.current = proxy
yield proxy
这使得整个ProxyHandler
实例一个可迭代对象,只需使用 iter(self.proxy_handler)
而不是self.proxy_handler.yield_proxy()
让生成器生成所有这些值。
最后但并非最不重要的一点是,您可以将生成器表达式与 itertools.cycle()
一起使用来完成整个事情。使该迭代器无穷无尽。您必须删除 current
但是,这并不重要,因为当您的生成器刚刚生成当前对象时,您实际上并不需要该属性无论如何:
from itertools import cycle
class ProxyHandler:
def __init__(self):
self.proxies = []
def get_proxies(self):
""" Retrieves proxies """
def __iter__(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies()
return cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)
生成器表达式生成相同类型的对象。
这一切仍然需要iter(self.proxy_generator)
;您可以通过 __iter__
来创建实例迭代器(而不是可迭代器)返回self
,并添加 next()
方法;在第一次调用时将上面的生成器表达式移动到属性,然后传递 next()
调用它来生成值:
class ProxyHandler:
def __init__(self):
self.proxies = []
self._gen = None
def get_proxies(self):
""" Retrieves proxies """
def __iter__(self):
return self
def next(self):
if not self._gen:
self.get_proxies()
self._gen = cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)
return next(self._gen)
__next__ = next # Python 3 compatibility
现在您每次都可以使用`next(self.proxy_handler):
def get_response(self, url):
if not self.proxy:
self.proxy = next(self.proxy_handler)
proxy = self.proxy
关于python - (错误)理解生成器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43712367/