这就像创建一个层次结构数据集。最终数据集将包含 100 x 2 x 3 x 25 = 15,000 行数据。我正在将 Python 与 Pandas 一起使用 (变量 1 号有 100 个值。在变量 1 号的每个值中,将有来自变量号 2 的 2 个变量。在变量号 2 的每个值中,将有来自变量号 3 的 3 个变量。 3,依此类推)
我尝试使用 ForLoop 来处理 4 号变量,但我不知道如何使更高级别的变量交替填充数据集。
variable4= range(0,25)
for i in range (0,25):
dataset.iloc[i,4] = variable4[i]
dataset.iloc[i,3] = 'Var3value'
请给我一些关于如何制作此类结构的建议。
P/s:欢迎使用并行计算来加快计算时间!
最佳答案
您可以使用MultiIndex.from_product
然后调用DataFrame
构造函数:
a = range(100)
b = list('ab')
c = list('ABC')
d = list(range(100, 125))
mux = pd.MultiIndex.from_product([a,b,c,d], names=list('xyuz'))
df = pd.DataFrame({'col':range(15000)}, index=mux)
print (df)
col
x y u z
0 a A 100 0
101 1
102 2
103 3
104 4
105 5
106 6
...
...
关于python - For Loop 使用 Pandas 创建包含分支数据的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46316113/