database - 用于文件系统存储组织和复制的 NoSQL?

标签 database filesystems nosql data-warehouse

我们一直在讨论我们小组内的数据仓库策略设计,以满足测试、可再现性和数据同步要求。建议的想法之一是使用 existing tool 来适应 NoSQL 方法。而不是尝试在文件系统上重新实现很多相同的东西。我不知道 NoSQL 方法是否是我们正在努力实现的最佳方法,但如果我描述了我们需要/想要的东西,也许你们都可以提供帮助。

  1. 我们的大多数文件都很大,大小超过 50 G,以专有的第三方格式保存。我们需要能够通过名称/日期/来源/时间/工件组合访问每个文件。本质上是键值对样式的查找。
  2. 当我们查询一个文件时,我们不想把它全部加载到内存中。它们真的太大了,会淹没我们的服务器。我们希望能够以某种方式获得对该文件的引用,然后使用专有的第三方 API 来提取其中的部分内容。
  3. 我们希望轻松地从存储中添加、删除和导出文件。
  4. 我们想在两台服务器之间设置自动文件复制(我们可以为此编写一个脚本。)也就是说,将一台服务器的内容与另一台服务器同步。我们不需要一个分布式系统,它看起来就像我们只有一台服务器。我们想要完整的复制。
  5. 我们还有其他与大文件有树型关系的小文件。一个文件的内容将指向下一个,依此类推。它不是“辐条轮”,而是一棵成熟的树。

我们更喜欢使用 Python、C 或 C++ API 来使用这样的系统,但我们大多数人都精通多种语言。我们不介意,只要它有效、完成工作并节省我们的时间即可。你认为呢?有这样的东西吗?

最佳答案

您看过 MongoDB 的 GridFS 吗? http://www.mongodb.org/display/DOCS/GridFS+Specification

您可以通过默认元数据以及您自己的附加元数据来查询文件。文件被分成小块,您可以指定您想要的部分。此外,文件存储在一个集合中(类似于 RDBMS 表),您可以启动 Mongo 的复制功能。

关于database - 用于文件系统存储组织和复制的 NoSQL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2776208/

相关文章:

linux - Hadoop HDFS : DateNode directory on system partition?

mongodb - 什么NoSQL数据库对复杂的多对多关系有好处?

python - 如何永久修改python中的字典?

mysql - 初学者帮助 : Looking for Member Names in diffrent projects to see in which projects they are working together

mysql - 如何在不同格式的表格中插入日期?

Git 与文件名中的 ä 混淆

数据库设计问题 :

c# - File.Exists 为不存在的文件返回 true

带有 redis 的 MongoDB

mongodb - 相当于 MongoDB 的 ERD?