python - 我怎样才能同时在一个可迭代的python上有多个迭代器?

标签 python python-3.x for-loop combinatorics python-itertools

我想比较我的可迭代对象中的所有元素的组合。以下可重现的示例只是模仿普通列表的功能,但演示了我的问题。在这个带有 ["A","B","C","D"] 列表的示例中,我想获得以下 16 行输出,每个项目相互组合。包含 100 个项目的列表应生成 100*100=10,000 行。

A A True
A B False
A C False
... 10 more lines ...
D B False
D C False
D D True

下面的代码看起来应该可以完成这项工作。

class C():
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        self.idx = 0
        return self
    def __next__(self):
        self.idx += 1
        if self.idx > len(self.stuff):
            raise StopIteration
        else:
            return self.stuff[self.idx - 1]

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

但是在完成 y 循环之后,x 循环似乎也完成了,即使它只使用了可迭代对象中的第一项。

A A True
A B False
A C False
A D False

经过大量搜索,我最终尝试了以下代码,希望 itertools.tee 允许我对同一数据使用两个独立的迭代器:

import itertools
thing = C()
thing_one, thing_two = itertools.tee(thing)
for x in thing_one:
    for y in thing_two:
        print(x, y, x==y)

但是我得到了和以前一样的输出。

这表示的真实世界对象是目录和文件结构的模型,其中包含不同数量的文件和子目录,位于树的不同深度。它嵌套了数千个成员的链接,并正确地迭代了一次,就像这个例子一样。但它也会根据比较需要在其许多内部对象中进行昂贵的处理,如果我必须在迭代之前制作它的完整副本,这最终会使工作量加倍。如果可能的话,我真的很想使用多个迭代器,指向一个包含所有数据的对象。


编辑答案:所有答案中都指出,问题代码中的关键缺陷是单个内部 self.idx 变量无法独立处理多个调用者。已接受的答案对我的实际类(class)来说是最好的(在这个可重现的示例中过于简单),另一个答案为更简单的数据结构(如此处列出的列表)提供了一个简单、优雅的解决方案。

最佳答案

创建一个容器类是它自己的迭代器实际上是不可能的。容器不应该知道迭代器的状态,迭代器也不需要知道容器的内容,它只需要知道哪个对象是对应的容器以及它“在哪里”。如果您混合使用迭代器和容器,不同的迭代器将彼此共享状态(在您的情况下为 self.idx),这将不会给出正确的结果(它们读取和修改相同的变量)。

这就是为什么所有内置类型都有一个单独的迭代器类(甚至有些有一个反向迭代器类)的原因:

>>> l = [1, 2, 3]
>>> iter(l)
<list_iterator at 0x15e360c86d8>
>>> reversed(l)
<list_reverseiterator at 0x15e360a5940>

>>> t = (1, 2, 3)
>>> iter(t)
<tuple_iterator at 0x15e363fb320>

>>> s = '123'
>>> iter(s)
<str_iterator at 0x15e363fb438>

所以,基本上你可以在 __iter__ 中返回 iter(self.stuff) 并完全删除 __next__ 因为 list_iterator 知道如何遍历列表:

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return iter(self.stuff)

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

像预期的那样打印 16 行。

如果您的目标是创建自己的迭代器类,则需要两个类(如果您想自己实现反向迭代器,则需要 3 个)。

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return C_iterator(self)
    def __reversed__(self):
        return C_reversed_iterator(self)

class C_iterator:
    def __init__(self, parent):
        self.idx = 0
        self.parent = parent
    def __iter__(self):
        return self
    def __next__(self):
        self.idx += 1
        if self.idx > len(self.parent.stuff):
            raise StopIteration
        else:
            return self.parent.stuff[self.idx - 1]

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

同样有效。

为了完整起见,这里是反向迭代器的一种可能实现方式:

class C_reversed_iterator:
    def __init__(self, parent):
        self.parent = parent
        self.idx = len(parent.stuff) + 1
    def __iter__(self):
        return self
    def __next__(self):
        self.idx -= 1
        if self.idx <= 0:
            raise StopIteration
        else:
            return self.parent.stuff[self.idx - 1]

thing = C()
for x in reversed(thing):
    for y in reversed(thing):
        print(x, y, x==y)

您可以使用生成器来代替定义您自己的迭代器。另一个答案中已经显示了一种方法:

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        yield from self.stuff
    def __reversed__(self):
        yield from self.stuff[::-1]

或者显式委托(delegate)给一个生成器函数(这实际上等同于上面的,但可能更清楚它是一个新生成的对象):

def C_iterator(obj):
    for item in obj.stuff:
        yield item

def C_reverse_iterator(obj):
    for item in obj.stuff[::-1]:
        yield item

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return C_iterator(self)
    def __reversed__(self):
        return C_reverse_iterator(self)

注意:您不必实现 __reversed__ 迭代器。这只是作为答案的附加“特征”。

关于python - 我怎样才能同时在一个可迭代的python上有多个迭代器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46941719/

相关文章:

python - 将 pandas 列中的关键字与另一个元素列表匹配

java - 如何让我的代码运行直到我输入数字

python - Python中的Hadoop流作业失败(失败)

python - python 中的并行多处理简单示例

python - 无法解决 "ImportError: dynamic module does not define module export function"

JavaScript - for 循环与数组移位

javascript - 如何使用for循环在canvas中绘制圆形曲线?

python - 检查输入 : expected input_19 to have 4 dimensions, 但获得形状为 (1190, 200, 200) 的数组时出错

python - Azure 函数从输入流保存临时 pdf 文件已损坏

python - 图像处理中的重复高斯模糊