python - 集合联合查找算法

标签 python algorithm set

我有数千行 1 到 100 的数字,每一行都定义了一组数字以及它们之间的关系。 我需要获取相关数字集。

小例子: 如果我有这7行数据

T1 T2
T3 
T4
T5
T6 T1
T5 T4
T3 T4 T7

我需要一个不太慢的算法来知道这里的集合是:

T1 T2 T6 (because T1 is related with T2 in the first line and T1 related with T6 in the line 5)
T3 T4 T5 T7 (because T5 is with T4 in line 6 and T3 is with T4 and T7 in line 7)

但是当你有非常大的集合时,在每个大集合中搜索 T(x) 并进行集合的并集...等等会非常慢。

您是否有提示以不那么蛮力的方式执行此操作?

我正尝试在 Python 中执行此操作。

最佳答案

一旦您构建了数据结构,您究竟想要针对它运行哪些查询?向我们展示您现有的代码。什么是 T(x)?您谈论“数字组”,但您的示例数据显示 T1、T2 等;请解释。

你读过这个吗:http://en.wikipedia.org/wiki/Disjoint-set_data_structure

尝试查看这个 Python 实现:http://code.activestate.com/recipes/215912-union-find-data-structure/

或者您可以自行编写一些相当简单易懂的内容,例如

[更新:全新的代码]

class DisjointSet(object):

    def __init__(self):
        self.leader = {} # maps a member to the group's leader
        self.group = {} # maps a group leader to the group (which is a set)

    def add(self, a, b):
        leadera = self.leader.get(a)
        leaderb = self.leader.get(b)
        if leadera is not None:
            if leaderb is not None:
                if leadera == leaderb: return # nothing to do
                groupa = self.group[leadera]
                groupb = self.group[leaderb]
                if len(groupa) < len(groupb):
                    a, leadera, groupa, b, leaderb, groupb = b, leaderb, groupb, a, leadera, groupa
                groupa |= groupb
                del self.group[leaderb]
                for k in groupb:
                    self.leader[k] = leadera
            else:
                self.group[leadera].add(b)
                self.leader[b] = leadera
        else:
            if leaderb is not None:
                self.group[leaderb].add(a)
                self.leader[a] = leaderb
            else:
                self.leader[a] = self.leader[b] = a
                self.group[a] = set([a, b])

data = """T1 T2
T3 T4
T5 T1
T3 T6
T7 T8
T3 T7
T9 TA
T1 T9"""
# data is chosen to demonstrate each of 5 paths in the code
from pprint import pprint as pp
ds = DisjointSet()
for line in data.splitlines():
    x, y = line.split()
    ds.add(x, y)
    print
    print x, y
    pp(ds.leader)
    pp(ds.group)

这是最后一步的输出:

T1 T9
{'T1': 'T1',
 'T2': 'T1',
 'T3': 'T3',
 'T4': 'T3',
 'T5': 'T1',
 'T6': 'T3',
 'T7': 'T3',
 'T8': 'T3',
 'T9': 'T1',
 'TA': 'T1'}
{'T1': set(['T1', 'T2', 'T5', 'T9', 'TA']),
 'T3': set(['T3', 'T4', 'T6', 'T7', 'T8'])}

关于python - 集合联合查找算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3067529/

相关文章:

algorithm - 基于算法的完全多元多项式代码

python - 集合理解在 Python 中给出 "unhashable type"(列表集)

objective-c - 使用 "member"获取 Set 中的元素

mysql - 从字符串创建 MySQL SET

python - 清理没有 .join() 且不阻塞主线程的线程

python - 当逐渐给出每条线的点时,在matplotlib中绘制多条线

c++ - 如何在图中找到 3 条边的负加权循环?

Python for循环查询

python - Keras plot_model 没有正确显示输入层

algorithm - 是否有邻近图算法或数据结构?