mongodb - 存储数百万个日志文件 - 每年大约 25 TB

标签 mongodb couchdb storage distributed logfiles

作为我工作的一部分,我们每年获得大约 25TB 的日志文件,目前它保存在基于 NFS 的文件系统上。有些以 zipped/tar.gz 格式存档,而另一些则以纯文本格式存档。

我正在寻找使用基于 NFS 的系统的替代方法。我查看了 MongoDB、CouchDB。它们是面向文档的数据库这一事实似乎使其成为合适的选择。但是,日志文件内容需要更改为 JSON 才能存储到数据库中。我不愿意做的事情。我需要按原样保留日志文件内容。

在使用方面,我们打算放置一个小型 REST API,并允许人们获取文件列表、最新文件以及获取文件的能力。

建议的解决方案/想法需要是某种形式的分布式数据库或应用程序级别的文件系统,其中可以存储日志文件并可以通过添加更多机器来有效地横向扩展。

安库尔

最佳答案

由于你不想查询特征,你可以使用apache hadoop .

我相信 HDFSHBase会很适合这个。

您可以在 Hadoop 中看到许多巨大的存储故事 powered by页面

关于mongodb - 存储数百万个日志文件 - 每年大约 25 TB,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3895847/

相关文章:

javascript - TypeScript错误无法使用 'in'运算符来搜索typescript和pouchdb的 '_id'

typescript - 如何使用 Superlogin、ionic3、PouchDB 和 CouchDB 在前端实现 Superlogin-Client 身份验证?

flutter - 如何处理音频文件?

android - 在 Android 设备上创建和存储日志文件

javascript - 捕获 JavaScript 中 for 循环的错误中断?

node.js - Expressjs 中可能会丢失绑定(bind)吗?

couchdb - 如何在 couchdb 上运行任务

go - 如何验证服务器到服务器的通信

mongodb - 如何在 Rust 中将 MongoDB 与 r2d2 和 actix 一起使用

mongodb - 我怎么知道 mongoDB 在哪里存储数据? (它不在 default/data/db 中!)