bigdata - 使用哪个数据库来按天比较数据过程?

标签 bigdata data-science data-analysis grafana influxdb

我目前正在考虑一个小“大数据”项目,我想每 10 分钟记录一些利用率,并在几个月或几年内将它们写入数据库。 然后我想分析数据,例如通过这些方式:

  • 一天中的哪个时间最好(就利用率而言)?
  • 正常工作日和周末的利用率有何差异?
  • 正常周一的利用率较高部分从什么时间开始?

为此,我显然需要能够构建平均图,例如到目前为止记录的所有星期一。

对于第一个“概念验证”,我设置了 InfluxDB 和 Grafana,它可以很好地查看写入数据库的数据,但我在互联网上研究得越多,我就越发现 InfluxDB 并不是为之而设计的。我想做的事(或者还做不到)。

那么哪个数据库最适合记录和分析这样的数据呢?或者这更像是一个关于使用哪种工具来分析数据的问题?那可能是哪个工具?

最佳答案

InfluxDB 查询语言对于您的此类问题不够灵活。 Grafana 支持的 SQL 数据库(MySQL、Postgres、TimescaleDB、Clickhouse)似乎更适合。选择取决于您的偏好和数据量。对于较小的数据集,纯 MySQL 和 Postgres 可能就足够了。对于更高的负载,请考虑 TimescaleDB。对于数十亿个数据点,Clickhouse 可能更好。

如果您想要一个轻量级但可扩展的 NoSQL 时间序列解决方案,请查看 VictoriaMetrics .

关于bigdata - 使用哪个数据库来按天比较数据过程?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59695974/

相关文章:

hadoop - HBase 单行事务支持中的行锁定

react-native - React-Native 中的 Bard

python - 当我们有 20 到 50 列时,如何在 Pandas 中创建 3 列或 4 列的 Dataframe 列表?

ruby-on-rails - 基于另一个数组从一个数组中删除值的最快方法

java - Spark - 数据集之间的迭代而不收集数据

Hadoop 数据节点经常挂掉

python - 如何从字符串中拆分日期和时间?

ios - 如何在iOS中实现随机决策森林分类

hadoop - 在Pig中,出现 'Error compiling operator POLocalRearrange'错误

machine-learning - 为什么PCA会降低Logistic回归的性能?