重述问题
是否有其他(通用)解决方案来记录将通过客户端 Web 应用程序使用的实时数据?
背景
我有一个在小型嵌入式 Linux 机器上运行的 Web 应用程序。它将连接多个子卡,用于监视/控制其他设备。有单独的进程运行以通过 Websockets 控制各种 IO 和到客户端的接口(interface)。由于用户的唯一界面是通过 HTML,检索数据、绘制数据等对我来说最有意义的是从数据库而不是原始文件系统中提取数据(我以前为富客户端软件做过)。
担忧
虽然我建议的模式最大限度地减少了数据库的大小,但如果 LogSample
表很大,是否会出现性能问题?假设 1Hz 采样率每天运行 8 小时:3600 个样本 * 8 小时 * 10 LogValues = 288000 LogSamples/天
。
提议的数据库架构
LogRecord
---------
+ Name
+ Start
+ Stop
+ Notes
- LogValues ----> LogValues
---------
+ Name
+ Units
+ Sample Rate
- Samples ----> LogSample
---------
+ Time Stamp
+ Value
地点:
- 带下划线的名字是独立的表格
----->
表示一对多的关系- 采样率最高为 5Hz(目前计划为 1Hz)
- 时间戳将是一个整数,表示自开始时间以来的样本数
系统信息
最大连接用户数:15
数据库:sqlite3 或 PostgreSQL
操作系统:Ubuntu 13.04
网络框架/ORM:Django
最佳答案
我认为这个问题的答案取决于以下决定:
这些数据是短暂的吗?
如果是,您最好将样本推送到 RabbitMQ 之类的东西中以供 websocket 连接的客户端使用,或者使用现有的解决方案,例如 statsd+graphite。这将从 postgres 中消除很多存储/性能问题,并将它们放在旨在处理这些用例的软件中。
这些数据是否需要永远可用?
继续使用 Postgres,但要确保尽可能多地使用 append-only 语义(这意味着不要连续写入 LogRecord.Stop
)。我还会有一个辅助数据通道,例如 Redis Pub-Sub 队列,用于将结果分发给实时客户端。如果您同时进行连续写入和轮询,则会导致性能瓶颈。
附录:我认为您的模式映射是倒退的。为了保持一致性和 1 个 LogRecord 到多个 LogField 的不变性(LogField -> LogSample 等),您需要以下结构:
LogRecord <--, LogField <--, LogSample
--------- | --------- | ---------
+ Name `--+ Record `--+ Field
+ Start + Name + Time Stamp
+ Stop + Units + Value
+ Notes + Sample Rate
此外,请按照以下简单教程设置 Postgres 以提高性能:
关于python - 这是将实时数据记录到数据库中的合乎逻辑的方法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21008049/