我正在使用 Python、Pandas 和 Numpy,尽管这个问题感觉更像是一个更通用的算法设计问题。
我有一个元素列表(实际上是一个数组),我想生成该列表的排列。但是,某些项目不允许位于列表中的某些位置。我想生成一个遵守这些限制的排列。执行此操作的有效方法是什么?
我的实际使用案例是一个 Pandas 数据框,有两列 X
和 Y
。 X
和 Y
都有相同的数字,但顺序不同。数字不是唯一的。同一行的 X
和 Y
中没有数字出现(即没有数字与其自身匹配)。我想置换 Y
,同时保持没有数字与自身匹配的限制。我一直在 Y
上调用 Numpy 的 permute
,但大约 1% 的结果行具有 X==Y
。
用例子编辑:
import pandas as pd
import numpy as np
data = [[1,2],
[1,4],
[4,2],
[2,3]]
df = pd.DataFrame(columns=['X', 'Y'],
data=data)
df_permuted = df.copy()
df_permuted.Y = np.random.permutation(df.Y)
print(df.X==df.Y)
#0 False
#1 False
#2 False
#3 False
#dtype: bool
print(df_permuted.X==df_permuted.Y)
#0 False
#1 False
#2 False
#3 True
#dtype: bool
编辑: 明显的算法太慢/无法扩展,是这样的:
for every row i:
define the set of valid candidate "other" rows (where i.X != other.Y and i.Y != other.X)
grab a row from the valid set
swap i.Y and other.Y
在我们的 Pandas 示例中,这将是:
from numpy.random import choice
for i in df.index:
other_rows = df[(df.ix[i].X != df.Y) * (df.ix[i].Y != df.X)]
selected_row = choice(other_rows.index)
original_Y = df.ix[i].Y
df.ix[i].Y = df.ix[selected_row].Y
df.ix[selected_row].Y = original_Y
print(df.X==df.Y)
#0 False
#1 False
#2 False
#3 False
#dtype: bool
问题是这太慢了,而且根本没有并行化。有没有办法并行化它?我想答案是“否”,因为对一行进行的交换会影响下一行的有效“其他”。
编辑比例感:
大约 1.4*10^7 行,X 中有 2*10^6 个唯一值,Y 中有类似的数字。并且需要生成大约 10^3 个独立排列。实际上,我将行分组并独立排列它们的内容,有些组非常小(例如 10 行),但许多组相当大 (10^5)。这买来了一点帮助,但最后还是排了一大堆!仅在 10^7 行上运行一个简单的 np.random.permutation
大约需要 7 秒,这就足够了。运行上面的受限排列算法(在 numpy 而不是 pandas 中实现以提高速度)只需 7 秒即可处理 10^3 行。哔!
最佳答案
我希望我不会想出一个对您的示例过于具体的解决方案。但是,如果可行,您可以创建每个排列,然后删除不符合您标准的排列。然后您可以直接使用它或从生成的排列中随机抽样。
这是受上述示例启发的代码。我意识到我使用的起始假设略有不同:
df = pd.DataFrame( list(itertools.product([1,2,3,4], [1,2,3,4])), columns = ['X','Y'])
print df
X Y
0 1 1
1 1 2
2 1 3
3 1 4
4 2 1
5 2 2
6 2 3
7 2 4
8 3 1
9 3 2
10 3 3
11 3 4
12 4 1
13 4 2
14 4 3
15 4 4
然后设置您感兴趣的条件:
print df[df.X != df.Y]
X Y
1 1 2
2 1 3
3 1 4
4 2 1
6 2 3
7 2 4
8 3 1
9 3 2
11 3 4
12 4 1
13 4 2
14 4 3
编辑: 我将把上面所有的组合垃圾留在那里,因为其他人可能会发现它有用。但在评论中聊天后,我认为我有一个可能的解决方案。
看起来你可以进行排列,然后将排列后的数据框分成两个子集:
- 不符合条件的数据(即 X==Y)
- 确实符合标准 (X!=Y) 的数据
然后我们可以获取第一个子集,然后简单地再次置换它。子集 1 应该比子集 2 小得多。我们只是递归地这样做,创建一组符合条件的记录应该非常容易和快速。
当然,我们必须处理只有一行匹配的情况。
我已经实现了一个示例解决方案:
设置一些与真实数据大小相似的播放数据:
np.random.seed(3)
n=14000000
df = pd.DataFrame({'X' : np.random.randint(2000000, size=n),
'Y' : np.random.randint(2000000, size=n)})
示例数据将从一些重复的行开始,但这没关系。让我们创建随机播放功能:
def permuteDataFrame(inDf):
permutedDf = pd.DataFrame({'X' : np.random.permutation(inDf.X),
'Y' : np.random.permutation(inDf.Y)})
# check for dupes
clash = permutedDf[permutedDf.X == permutedDf.Y]
if clash.shape[0] > 1: #repermuting can't work if only one row has a match
clash = permutedDf[permutedDf.X == permutedDf.Y].copy()
noclash = permutedDf[permutedDf.X != permutedDf.Y].copy()
# recursion FTW: run the clashes back through this algo
clash = permuteDataFrame(clash)
permutedDf = pd.concat([clash, noclash ])
if clash.shape[0] == 1: # handle the single match problem
# solving the single match by grabbing the single match plus a random other record and permuting
# get the vector of bools that indicate matches
clashIndex = permutedDf.X == permutedDf.Y
# randomly make another one True
ilocToSwap = np.random.randint(permutedDf.shape[0]) # random record location to swap
indexOfClashes.iloc[ilocToSwap] = True
clash = permutedDf[indexOfClashes]
# recursion FTW: run the clashes back through this algo
clash = permuteDataFrame(clash)
permutedDf = pd.concat([clash, noclash ])
return permutedDf
在我的 Mac 上,一个简单的排列需要 5.3 秒。新的 permuteDataFrame()
函数需要 5.8 秒。即使在您的机器上需要 8 秒,也可以在 2.2 小时内获得 1000 个。那可能行得通。
关于python - 创建一个有限制的排列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26908381/