python - 从具有许多键的字典列表创建 Pandas 时间序列

标签 python pandas

我有多个时间序列,它们是各种算法的输出。这些算法可以有各种参数,因此它们会生成时间序列:

timestamp1=1;
value1=5;
timestamp2=2;
value2=8;
timestamp3=3;
value3=4;
timestamp4=4;
value4=12;

resultsOfAlgorithms=[
{
'algorithm':'minmax',
'param-a':'12',
'param-b':'200',
'result-of-algorithm':[[timestamp1,value1],[timestamp2,value2]]
},
{
'algorithm':'minmax',
'param-a':'12',
'param-b':'30',
'result-of-algorithm':[[timestamp1,value1],[timestamp3,value3]]
},
{
'algorithm':'minmax',
'param-a':'12',
'param-b':'30',
'result-of-algorithm':[[timestamp2,value2],[timestamp4,value4]]
},
{
'algorithm':'delta',
'param-a':'12',
'param-b':'50',
'result-of-algorithm':[[timestamp2,value2],[timestamp4,value4]]
}
]

我希望能够按算法和参数过滤时间序列,并绘制过滤后的时间序列以查看给定参数如何影响输出。为此,我需要知道给定参数的所有出现值,然后才能选择具有所需参数的时间序列。例如。我想用 param-b==30 绘制 minmax 算法的所有结果。使用 minmax 算法和 param-b==30 产生了 2 个结果。因此,我想要一个包含 2 个时间序列的图。

这对 pandas 来说可行吗?还是超出了 pandas 的功能?如何实现?

编辑: 在互联网上搜索更多,我想我正在寻找一种使用分层索引的方法。时间序列也应该保持分开。每个结果都是一个单独的时间序列。它不应与其他结果合并在一起。我需要通过使用的参数过滤算法的结果。过滤器的结果应该仍然是一个时间序列列表。

编辑 2: 有多个子问题:

  1. 找到每个参数的所有现有值(用户不知道所有值,因为参数可以由系统自动生成)

  2. 用户选择一些值进行过滤 用户可以提供的一种方式是字典(但欢迎更多用户友好的想法):

    过滤器={ '参数-b':[30,50], “算法”:“最小最大”

  3. resultsOfAlgorithms[1:2] 的时间序列(第 2 和第 3 个结果)作为过滤结果给出,因为这些结果是由 minmax 算法产生的并且参数 b 为 30。因此在这种情况下

    [ [[timestamp1,value1],[timestamp3,value3]], [[timestamp1,value1],[timestamp3,value3]] ]

  4. 过滤的结果会返回多个时间序列,我想绘制比较。

  5. 用户想尝试各种过滤器以查看它们如何影响结果

我在 Jupyter Notebook 中完成所有这些工作。而且我希望允许用户以尽可能少的麻烦尝试各种过滤器。

结果中的时间戳不会共享。结果之间的时间戳不一定共享。例如。所有时间序列都可能发生在下午 1 点到下午 3 点之间,并且具有大致相同的值,但时间戳和值的数量并不相同。

最佳答案

所以这里有两种选择,一种是先清理dict,然后轻松将其转换为dataframe,第二种是将其转换为dataframe,然后清理其中将包含嵌套列表的列。对于第一个解决方案,您可以像这样重组字典:

import pandas as pd
from collections import defaultdict

data = defaultdict(list)
for roa in resultsOfAlgorithms:
    for i in range(len(roa['result-of-algorithm'])):
        data['algorithm'].append(roa['algorithm'])
        data['param-a'].append(roa['param-a'])
        data['param-b'].append(roa['param-b'])
        data['time'].append(roa['result-of-algorithm'][i][0])
        data['value'].append(roa['result-of-algorithm'][i][1])

df = pd.DataFrame(data)

In [31]: df
Out[31]:
  algorithm param-a param-b  time  value
0    minmax      12     200     1      5
1    minmax      12     200     2      8
2    minmax      12      30     1      5
3    minmax      12      30     3      4
4    minmax      12      30     2      8
5    minmax      12      30     4     12
6     delta      12      50     2      8
7     delta      12      50     4     12

从这里您可以使用它进行任何需要的分析,无论是绘制时间列还是将时间列作为索引或者分组和聚合等等。您可以在此链接中将其与首先制作数据框进行比较:

Splitting a List inside a Pandas DataFrame

他们基本上做了同样的事情,将一列列表分成多行。不过,我认为修复字典会更容易,具体取决于您相当简单的示例对真实数据的代表性。

编辑:如果你想把它变成一个多索引,你可以再添加一行:

df_mi = df.set_index(['algorithm', 'param-a', 'param-b'])

In [25]: df_mi
Out[25]:
                           time  value
algorithm param-a param-b
minmax    12      200         1      5
                  200         2      8
                  30          1      5
                  30          3      4
                  30          2      8
                  30          4     12
delta     12      50          2      8
                  50          4     12

关于python - 从具有许多键的字典列表创建 Pandas 时间序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38208697/

相关文章:

python - 减少 Django 中的查询数量

python - pandas.concat 两个数据框(一个有标题,一个没有标题)

python - 在 Python 中打开文件时出现括号错误

python - 将 Pandas 系列转换为字符串列表在字符串中留下括号

Python:递归删除超过x天的文件夹

python - 从 numpy 数组中删除变量

python - 删除 Pandas 数据框中的特殊字符

python - 检查当前行中的所有列值是否小于 Pandas 数据框中的前一行

python - 转储 Python 字典时出现错误,表示它是 Pandas DataFrame

python - 如果转置索引具有重复值,则创建新行