python - 为什么 Python itertools 没有归类为生成器 (GeneratorType)?

标签 python types iterator generator python-itertools

我刚刚发现各种 itertools 函数返回的类类型不被 Python 类型系统视为生成器。

首先,设置:

import collections
import glob  
import itertools
import types

ig = glob.iglob('*')
iz = itertools.izip([1,2], [3,4])

然后:

>>> isinstance(ig, types.GeneratorType) 
True
>>> isinstance(iz, types.GeneratorType)
False

glob.iglob() 结果或任何其他典型生成器的类型为 types.GeneratorType。但是 itertools 结果不是。如果我想编写一个必须急切计算其输入序列的函数,这会导致很大的困惑——我需要知道它是否是一个生成器。

我找到了这个替代方案:

>>> isinstance(ig, collections.Iterator)
True
>>> isinstance(iz, collections.Iterator)
True

但这并不理想,因为 iter(x) 是一个 Iterator 而不管 x 是否是一个具体的(急切求值的)序列,或生成器(延迟评估)。

最终目标是这样的:

def foo(self, sequence):
    """Store the sequence, making sure it is fully
    evaluated before this function returns."""

    if isinstance(sequence, types.GeneratorType):
        self.sequence = list(sequence)
    else:
        self.sequence = sequence

为什么我想这样做的一个例子是,如果序列的评估可能引发异常,并且我希望从 foo() 而不是后续的使用 self.sequence

我不喜欢 types.GeneratorType 方法,因为它会产生一些误报——我不想不必要地构建输入列表的副本,因为它可能很大。

我愿意忽略“不寻常”的迭代器,这意味着如果有人实现了一个不符合生成器条件的自定义迭代器,但我不愿意让 itertools 有错误的行为,因为它们相当流行。

最佳答案

为什么 Python itertools 没有被归类为生成器?

想想 generators作为实现 iterator 的众多可能方法之一. itertools都是用 C 语言编写的自定义迭代器。大多数可以使用生成器以较慢的代码实现,但它们是为提高速度而设计的。

types.GeneratorType指定为“通过调用生成器函数生成的生成器迭代器对象的类型”。由于 glob.iglob() 返回的迭代器通过调用生成器函数生成,它将匹配生成器类型。但是,itertools.izip() 返回的迭代器由 C 代码生成,因此它不会匹配生成器类型。

换句话说,types.GeneratorType 对识别所有延迟计算的迭代器没有用,它只对识别实际的 generator-iterators 有用。 .

如何识别完全评估的集合?

听起来目标是区分“急切评估”的集合(如 listtupledict set) 与“惰性评估”迭代器。使用collections.Iterator可能是要走的路:

>>> isinstance([], collections.Iterator)
False
>>> isinstance((), collections.Iterator)
False
>>> isinstance({}, collections.Iterator)
False
>>> isinstance(set(), collections.Iterator)
False

>>> isinstance(iter([]), collections.Iterator)
True
>>> isinstance(iter(()), collections.Iterator)
True
>>> isinstance(iter({}), collections.Iterator)
True
>>> isinstance(iter(set()), collections.Iterator)
True

>>> isinstance(glob.iglob('.'), collections.Iterator)
True
>>> isinstance(itertools.izip('abc', 'def'), collections.Iterator)
True
>>> isinstance((x**2 for x in range(5)), collections.Iterator)
True

如果 iter() 已经被调用了怎么办?

如果您已经对任何“急切”的集合调用了 iter(),那么如果不借助诸如 type(x) in {type(iter(s)) for s in ([], (), {}, set())}

最终目标

既定目标是“存储序列,确保在该函数返回之前对其进行全面评估”。执行此操作的通常方法只是 list(sequence) 而不进行周围检查以查看它是否已经是列表、元组、双端队列或其他一些完全评估的序列。这可能看起来很浪费,但是 list()调用非常快(它只是以 C 速度复制对象指针)。

关于python - 为什么 Python itertools 没有归类为生成器 (GeneratorType)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38015246/

相关文章:

python - 在群图之上绘制误差线

c++ - 是否可以在 C++ 中使用转换迭代器?

java - 如何使用 Iterator 类从 List 中删除重复元素?

python - 在脚本中从 IPython 交互式命名空间访问变量

python - 在 Python 中查找原始异常的模块名称

python - 如何创建一个无限迭代器来生成一个递增的字母表模式?

javascript - 在 typescript 中提取给定通用参数的特定联合项

haskell - 使用镜头应用依赖于多个领域的功能

c# - Quartz.NET 实现与教程不一致

c++ - 为二叉树重载++ 运算符