用于用户文件的 Linux 数据仓库系统？

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。

想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。

6年前关闭。

Improve this question

我在一所大型大学工作，我部门的大部分备份需求都由中央网络服务提供。但是，许多用户拥有大型文件(例如医学成像扫描)的集合，这些文件超出了他们可用的中央存储空间。

我正在寻求为部门资源提供改进的备份解决方案，并设置了一个 Linux 服务器，员工可以在其中存放这些收藏品。但是，我可以预见服务器中的存储被大量很少访问的文件所淹没。我有一个系统来处理这个问题，但想确保我没有重新发明轮子。

我的概念:

用户将文件复制到服务器。

计划作业保持完整
上所有文件的最新副本
独立的存储机制(1TB
外部驱动器目前
专用)

未被访问的文件
有一段时间被清除
服务器但保留在存储上
驱动，保持足够的净空
生活环境。

一个简单的界面(可能
基于网络)使用户可以访问
他们所有文件的列表
他们可以要求他们需要的人，
从存储中复制的
驱动到实时服务器。电子邮件
通知将被发送一次
文件已被复制过来。

这个概念是基于我在以前的工作中听说但没有直接使用的 PACS(图片存档和通信系统)。这使用了类似的“近线”备份过程来访问大量数据，同时允许在不阻塞网络其他部分的情况下传输到本地机器。这与许多博物馆和学术图书馆所使用的原则相似，它们的总“数据持有量”比直接访问书架上提供的要多得多。

是否有适合我要求的简单开源系统？是否有其他系统使用不同的范例，但仍能满足我的需求？

最佳答案

S3 在这里是一个有趣的想法。使用 cron 将超过 1 个月未访问的文件同步到亚马逊的 S3，然后创建一个 Web 界面供用户将同步的文件恢复回服务器。在将文件移动到 S3 之前和恢复之后发送电子邮件。

http://s3tools.org/s3cmd

无限存储，只为您使用的内容付费。不是一个现有的开源项目，但也不太难组装。

如果您需要良好的安全性，请在将文件推送到 Amazon 之前将文件包装在 GPG 加密中。 GPG 非常非常安全。

一个更昂贵的选择是将所有数据存储在本地。如果您不想购买大型磁盘集群或大型 NAS，您可以使用 HDFS:

http://hadoop.apache.org/common/docs/current/hdfs_design.html

并同步到行为类似于 S3 的集群。您可以使用商用硬件扩展 HDFS。尤其是如果你有几台旧机器和一个快速的网络，这可能比严肃的 NAS 便宜得多，而且在尺寸上更具可扩展性。

祝你好运!我期待看到更多关于此的答案。

关于用于用户文件的 Linux 数据仓库系统？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1244180/

用于用户文件的 Linux 数据仓库系统？

上一篇：linux - 如何使用 ICC 编译 OpenCV？

下一篇：php - 更改 Mysql、php 和 apache2 日志文件格式