sql - 针对大整数系列的优化存储

标签 sql postgresql time-series

我目前正在从头开始设计一家初创企业的后端。我们从网上搜集时间序列。我们每分钟刮取大量整数,并将它们存储在csv文件中带有时间戳的行中。
我们还处于设计阶段,没有开始正确利用数据。我想知道,几年整数序列的最佳存储量是多少?我们开始期待在Postgres中加载它,但是sql适合利用时间序列吗?
我期待着找到一个奇迹般的软件,它将是处理此类特定数据集的最佳选择,并且很高兴听到任何建议,这些建议将使:
持久性大存储
平均/分组计算,可能还有其他类似于R的特性
与原始sql数据库存储相比,在性能、功能或易用性方面有所提高

最佳答案

每分钟,8000个值转换成每天1150万个值或每年40亿行。这是一个沉重的负担。只是插入负载(使用任何符合ACID的方法)是显而易见的——每秒超过100个插入。这在现代数据库系统中绝对是可以管理的,但它不是微不足道的。
Postgres很有可能通过适当的索引和分区方案来处理这个负载。这个解决方案的确切性质取决于您需要运行的查询,但是Postgres确实有支持它的底层工具。
但是,在我看来,您的需求比堆栈溢出所能提供的要大。如果你正在设计这样一个系统,你应该寻求专业的博士后DBA的帮助。我可能会补充说,你可以考虑看看基于云的解决方案,如亚马逊红移或微软Azure,因为这些可以让你通过支付更多的钱来轻松扩展系统。

关于sql - 针对大整数系列的优化存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23583246/

相关文章:

javascript - Pandas 的时间序列

python - Python 3.5中的时间序列-拟合ARMA模型

machine-learning - 在 R 中使用插入符号包进行时间序列预测

sql - 来自 NHibernate 应用程序的相同 SQL 查询比 SQL Studio 慢?

c# - c# 中的 T-SQL 语句中的语法不正确

mysql - 澄清 InnoDB 引擎中的行级锁和 MySQL 数据库中 MyISAM 引擎中的表级锁的区别

mysql - 分组依据,总和和COUNT

django - Django-cms和SQLite性能

sql - 在 postgres 中使用 json_agg 查询连接性能

javascript - 在 Node.js 和其他 2 个 node.js 问题中安装 Postgres 模块时出错