我有一些大型数据集(数字和文本),当我使用 python 和 numpy/matplotlib 进行研究和可视化时,我遇到了一个问题:我加载原始数据,应用计算,然后创建图表在 matplotlib 中。这一切都在一个程序中,所以每次我想调整图表图例或使我的图表更具视觉吸引力时,我都会冗余且低效地计算相同的数据。我只处理我的数据集的一小部分样本,脚本一次运行 30 分钟!
我知道解决方案是运行计算并存储输出以供在单独的程序中使用;然后使用不同的程序生成实际的图形。我的问题是我不知道如何最好地存储程序之间处理过的数据。我应该制作一个 .csv 文件,还是有一些合适的结构可以自动以(可能)人类可读的格式存储数据?
最佳答案
查看 pytables ,HDF5 库的包装器。它就是为这类事情而设计的。
关于python - 存储原始数据和处理后的数据以便在 matplotlib 中高效使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4963183/