我有从 2015 年 2 月 1 日到 2015 年 10 月 31 日期间大约 8.5k 产品的亚马逊价格数据。目前,它采用字典形式,键为从基准日期开始的天数和 value 作为当天开始的新价格。例如,这里的价格从第 1 天开始为 10 美元,在第 45 天变为 15 美元,然后在第 173 天变为 9 美元,此后不变。
{1:10,
45:15,
.
.
.
173:9}
存储此类时间序列以便使用 python 轻松操作的最佳方法是什么?我想执行大量聚合,也想查询特定日期的价格。最后,我将执行一些固定效应回归并且对什么是存储这个时间序列的最佳方式感到困惑,这样我的编程工作就变得相对简单了。我可以存储为包含 273 列(每列代表一天)和对应于 8.5k 产品的行的表格。我一直在寻找可以帮助我做到这一点的 pandas 模块,但是有更好的方法吗?谢谢!
最佳答案
您可以使用字典的字典并将其转换为 Pandas 数据框,还可以使用 numpy 进行计算。你的第一个键是产品,内部字典是你已经拥有的,但它不会以你建议的格式打印,但你需要做的就是转置它,举个简单的例子
import pandas as pd
d = {'Product1': {1:10, 45:15, 173:9}, 'Product2': {1:11, 100:50, 173:10}}
df = pd.DataFrame(d).T
print df
1 45 100 173
Product1 10 15 NaN 9
Product2 11 NaN 50 10
关于python - python中时间序列数据的存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33612734/