我目前正在从头开始设计一家初创企业的后端。我们从网上搜集时间序列。我们每分钟刮取大量整数,并将它们存储在csv文件中带有时间戳的行中。
我们还处于设计阶段,没有开始正确利用数据。我想知道,几年整数序列的最佳存储量是多少?我们开始期待在Postgres中加载它,但是sql适合利用时间序列吗?
我期待着找到一个奇迹般的软件,它将是处理此类特定数据集的最佳选择,并且很高兴听到任何建议,这些建议将使:
持久性大存储
平均/分组计算,可能还有其他类似于R的特性
与原始sql数据库存储相比,在性能、功能或易用性方面有所提高
最佳答案
每分钟,8000个值转换成每天1150万个值或每年40亿行。这是一个沉重的负担。只是插入负载(使用任何符合ACID的方法)是显而易见的——每秒超过100个插入。这在现代数据库系统中绝对是可以管理的,但它不是微不足道的。
Postgres很有可能通过适当的索引和分区方案来处理这个负载。这个解决方案的确切性质取决于您需要运行的查询,但是Postgres确实有支持它的底层工具。
但是,在我看来,您的需求比堆栈溢出所能提供的要大。如果你正在设计这样一个系统,你应该寻求专业的博士后DBA的帮助。我可能会补充说,你可以考虑看看基于云的解决方案,如亚马逊红移或微软Azure,因为这些可以让你通过支付更多的钱来轻松扩展系统。
关于sql - 针对大整数系列的优化存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23583246/