database - 海量的流量数据应该如何存储以便于检索？

对于流量统计系统，我需要存储大量关于通过我们的网关路由器发送的互联网数据包的数据集(包含时间戳、用户 ID、目标或源 ip、字节数等)。

此数据必须存储一段时间，至少几天。也应该可以轻松检索。

做这件事的好方法是什么？我已经有了一些想法:

为每个用户和日期创建一个文件，并将每个数据集附加到其中。
- 优点:它可能非常快，并且在文件布局一致的情况下很容易找到数据。
- 缺点:不容易看到，例如所有用户的所有 UDP 流量。
使用数据库
- 优点:使用正确的 SQL 查询很容易找到特定数据。
- 缺点:我不确定是否有数据库引擎可以有效地处理可能包含数亿个数据集的表。
或许可以将这两种方法结合起来:为每个用户使用一个 SQLite 数据库文件。
- 优点:使用 SQL 查询一个用户的文件可以很容易地获取信息。
- 缺点:获取整体信息仍然很困难。

但也许其他人有一个非常好的主意？

非常感谢。

最佳答案

首先，获取The Data Warehouse Toolkit在你做任何事情之前。

您正在做一项数据仓库工作，您需要像处理数据仓库工作一样处理它。您需要阅读此类内容的正确设计模式。

[注意数据仓库并不意味着疯狂的大、昂贵或复杂。这意味着星型模式和处理从未更新的大量数据的智能方法。]

一个典型的 DW 方法就是这样做。

为您的数据定义“星型模式”。可衡量的事实和这些事实的属性(“维度”)。您的事实似乎是字节数。其他所有内容(地址、时间戳、用户 ID 等)都是该事实的一个维度。
在主维度数据库中构建维度数据。它相对较小(IP 地址、用户、日期维度等)。每个维度都将包含您可能想知道的所有属性。这种增长，人们总是向维度添加属性。
创建一个“加载”过程，用于获取您的日志、解析维度(时间、地址、用户等)并将维度键与度量(字节数)合并。这可能会更新维度以添加新用户或新地址。通常，您正在阅读事实行、进行查找并编写具有所有正确 FK 的事实行。
将这些加载文件保存在磁盘上。这些文件没有更新。他们只是积累。使用简单的表示法，例如 CSV，这样您就可以轻松地批量加载它们。

当有人想要进行分析时，为他们构建一个数据集市。

对于选定的 IP 地址或时间范围或其他任何内容，获取所有相关事实，加上关联的主维度数据并批量加载数据集市。

您可以在这个市场上执行所有您想要的 SQL 查询。大多数查询将转移到 SELECT COUNT(*) 和 SELECT SUM(*) 以及各种 GROUP BY 和 HAVING 和 WHERE 子句。

关于database - 海量的流量数据应该如何存储以便于检索？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2343754/