作为我工作的一部分,我们每年获得大约 25TB 的日志文件,目前它保存在基于 NFS 的文件系统上。有些以 zipped/tar.gz 格式存档,而另一些则以纯文本格式存档。
我正在寻找使用基于 NFS 的系统的替代方法。我查看了 MongoDB、CouchDB。它们是面向文档的数据库这一事实似乎使其成为合适的选择。但是,日志文件内容需要更改为 JSON 才能存储到数据库中。我不愿意做的事情。我需要按原样保留日志文件内容。
在使用方面,我们打算放置一个小型 REST API,并允许人们获取文件列表、最新文件以及获取文件的能力。
建议的解决方案/想法需要是某种形式的分布式数据库或应用程序级别的文件系统,其中可以存储日志文件并可以通过添加更多机器来有效地横向扩展。
安库尔
最佳答案
关于mongodb - 存储数百万个日志文件 - 每年大约 25 TB,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3895847/