python - 创建一个有限制的排列

标签 python algorithm numpy pandas permutation

我正在使用 Python、Pandas 和 Numpy,尽管这个问题感觉更像是一个更通用的算法设计问题。

我有一个元素列表(实际上是一个数组),我想生成该列表的排列。但是,某些项目不允许位于列表中的某些位置。我想生成一个遵守这些限制的排列。执行此操作的有效方法是什么?

我的实际使用案例是一个 Pandas 数据框,有两列 XYXY 都有相同的数字,但顺序不同。数字不是唯一的。同一行的 XY 中没有数字出现(即没有数字与其自身匹配)。我想置换 Y,同时保持没有数字与自身匹配的限制。我一直在 Y 上调用 Numpy 的 permute,但大约 1% 的结果行具有 X==Y

用例子编辑:

import pandas as pd
import numpy as np

data = [[1,2],
        [1,4],
        [4,2],
        [2,3]]

df = pd.DataFrame(columns=['X', 'Y'],
              data=data)


df_permuted = df.copy()

df_permuted.Y = np.random.permutation(df.Y)

print(df.X==df.Y)
#0    False
#1    False
#2    False
#3    False
#dtype: bool

print(df_permuted.X==df_permuted.Y)
#0    False
#1    False
#2    False
#3     True
#dtype: bool

编辑: 明显的算法太慢/无法扩展,是这样的:

for every row i:  
 define the set of valid candidate "other" rows (where i.X != other.Y and i.Y != other.X)
 grab a row from the valid set
 swap i.Y and other.Y

在我们的 Pandas 示例中,这将是:

from numpy.random import choice
for i in df.index:
    other_rows = df[(df.ix[i].X != df.Y) * (df.ix[i].Y != df.X)]
    selected_row = choice(other_rows.index)
    original_Y = df.ix[i].Y
    df.ix[i].Y = df.ix[selected_row].Y
    df.ix[selected_row].Y = original_Y
print(df.X==df.Y)
#0    False
#1    False
#2    False
#3    False
#dtype: bool

问题是这太慢了,而且根本没有并行化。有没有办法并行化它?我想答案是“否”,因为对一行进行的交换会影响下一行的有效“其他”。

编辑比例感: 大约 1.4*10^7 行,X 中有 2*10^6 个唯一值,Y 中有类似的数字。并且需要生成大约 10^3 个独立排列。实际上,我将行分组并独立排列它们的内容,有些组非常小(例如 10 行),但许多组相当大 (10^5)。这买来了一点帮助,但最后还是排了一大堆!仅在 10^7 行上运行一个简单的 np.random.permutation 大约需要 7 秒,这就足够了。运行上面的受限排列算法(在 numpy 而不是 pandas 中实现以提高速度)只需 7 秒即可处理 10^3 行。哔!

最佳答案

我希望我不会想出一个对您的示例过于具体的解决方案。但是,如果可行,您可以创建每个排列,然后删除不符合您标准的排列。然后您可以直接使用它或从生成的排列中随机抽样。

这是受上述示例启发的代码。我意识到我使用的起始假设略有不同:

df = pd.DataFrame( list(itertools.product([1,2,3,4], [1,2,3,4])), columns = ['X','Y'])
print df


    X  Y
0   1  1
1   1  2
2   1  3
3   1  4
4   2  1
5   2  2
6   2  3
7   2  4
8   3  1
9   3  2
10  3  3
11  3  4
12  4  1
13  4  2
14  4  3
15  4  4

然后设置您感兴趣的条件:

print df[df.X != df.Y]

    X  Y
1   1  2
2   1  3
3   1  4
4   2  1
6   2  3
7   2  4
8   3  1
9   3  2
11  3  4
12  4  1
13  4  2
14  4  3

编辑: 我将把上面所有的组合垃圾留在那里,因为其他人可能会发现它有用。但在评论中聊天后,我认为我有一个可能的解决方案。

看起来你可以进行排列,然后将排列后的数据框分成两个子集:

  1. 不符合条件的数据(即 X==Y)
  2. 确实符合标准 (X!=Y) 的数据

然后我们可以获取第一个子集,然后简单地再次置换它。子集 1 应该比子集 2 小得多。我们只是递归地这样做,创建一组符合条件的记录应该非常容易和快速。

当然,我们必须处理只有一行匹配的情况。

我已经实现了一个示例解决方案:

设置一些与真实数据大小相似的播放数据:

np.random.seed(3)
n=14000000
df = pd.DataFrame({'X' : np.random.randint(2000000, size=n), 
                   'Y' : np.random.randint(2000000, size=n)})

示例数据将从一些重复的行开始,但这没关系。让我们创建随机播放功能:

def permuteDataFrame(inDf):
    permutedDf = pd.DataFrame({'X' : np.random.permutation(inDf.X), 
                               'Y' : np.random.permutation(inDf.Y)})
    # check for dupes
    clash = permutedDf[permutedDf.X == permutedDf.Y] 
    if clash.shape[0] > 1: #repermuting can't work if only one row has a match
        clash = permutedDf[permutedDf.X == permutedDf.Y].copy()
        noclash = permutedDf[permutedDf.X != permutedDf.Y].copy()
        # recursion FTW: run the clashes back through this algo
        clash = permuteDataFrame(clash)
        permutedDf = pd.concat([clash, noclash ])
    if clash.shape[0] == 1: # handle the single match problem
        # solving the single match by grabbing the single match plus a random other record and permuting
        # get the vector of bools that indicate matches
        clashIndex = permutedDf.X == permutedDf.Y
        # randomly make another one True
        ilocToSwap = np.random.randint(permutedDf.shape[0]) # random record location to swap
        indexOfClashes.iloc[ilocToSwap] = True
        clash = permutedDf[indexOfClashes]
        # recursion FTW: run the clashes back through this algo
        clash = permuteDataFrame(clash)
        permutedDf = pd.concat([clash, noclash ])
    return permutedDf

在我的 Mac 上,一个简单的排列需要 5.3 秒。新的 permuteDataFrame() 函数需要 5.8 秒。即使在您的机器上需要 8 秒,也可以在 2.2 小时内获得 1000 个。那可能行得通。

关于python - 创建一个有限制的排列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26908381/

相关文章:

python - 在 Pyramid 中实现 ElasticSearch

带有异常空格的 Python BeautifulSoup 和 HTML

python - Ansible 与 Github : Permission denied (Publickey)

python - 无法使用新数据点更新 Pyqtgraph 图

php - 尽管满足条件,但如果在条件语句中调用 return,则函数返回 null。返回条件之外的期望值

python - 使用 numpy 数组避免 for 循环 - 组合学

java - 有没有办法猜测使用哪种算法生成哈希 key ?

algorithm - 在有向图中找到循环的最佳(时间复杂度)算法是什么?

python - Python 中的数据框转换

python - 如何在numpy savetxt中使用fmt对齐每一列的信息