关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。
想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。
6年前关闭。
Improve this question
我在一所大型大学工作,我部门的大部分备份需求都由中央网络服务提供。但是,许多用户拥有大型文件(例如医学成像扫描)的集合,这些文件超出了他们可用的中央存储空间。
我正在寻求为部门资源提供改进的备份解决方案,并设置了一个 Linux 服务器,员工可以在其中存放这些收藏品。但是,我可以预见服务器中的存储被大量很少访问的文件所淹没。我有一个系统来处理这个问题,但想确保我没有重新发明轮子。
我的概念:
上所有文件的最新副本
独立的存储机制(1TB
外部驱动器目前
专用)
有一段时间被清除
服务器但保留在存储上
驱动,保持足够的净空
生活环境。
基于网络)使用户可以访问
他们所有文件的列表
他们可以要求他们需要的人,
从存储中复制的
驱动到实时服务器。电子邮件
通知将被发送一次
文件已被复制过来。
这个概念是基于我在以前的工作中听说但没有直接使用的 PACS(图片存档和通信系统)。这使用了类似的“近线”备份过程来访问大量数据,同时允许在不阻塞网络其他部分的情况下传输到本地机器。这与许多博物馆和学术图书馆所使用的原则相似,它们的总“数据持有量”比直接访问书架上提供的要多得多。
是否有适合我要求的简单开源系统?是否有其他系统使用不同的范例,但仍能满足我的需求?
最佳答案
S3 在这里是一个有趣的想法。使用 cron 将超过 1 个月未访问的文件同步到亚马逊的 S3,然后创建一个 Web 界面供用户将同步的文件恢复回服务器。在将文件移动到 S3 之前和恢复之后发送电子邮件。
无限存储,只为您使用的内容付费。不是一个现有的开源项目,但也不太难组装。
如果您需要良好的安全性,请在将文件推送到 Amazon 之前将文件包装在 GPG 加密中。 GPG 非常非常安全。
一个更昂贵的选择是将所有数据存储在本地。如果您不想购买大型磁盘集群或大型 NAS,您可以使用 HDFS:
并同步到行为类似于 S3 的集群。您可以使用商用硬件扩展 HDFS。尤其是如果你有几台旧机器和一个快速的网络,这可能比严肃的 NAS 便宜得多,而且在尺寸上更具可扩展性。
祝你好运!我期待看到更多关于此的答案。
关于用于用户文件的 Linux 数据仓库系统?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1244180/