用于用户文件的 Linux 数据仓库系统?

标签 linux open-source networking backup data-warehouse

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

6年前关闭。




Improve this question




我在一所大型大学工作,我部门的大部分备份需求都由中央网络服务提供。但是,许多用户拥有大型文件(例如医学成像扫描)的集合,这些文件超出了他们可用的中央存储空间。

我正在寻求为部门资源提供改进的备份解决方案,并设置了一个 Linux 服务器,员工可以在其中存放这些收藏品。但是,我可以预见服务器中的存储被大量很少访问的文件所淹没。我有一个系统来处理这个问题,但想确保我没有重新发明轮子。

我的概念:

  • 用户将文件复制到服务器。
  • 计划作业保持完整
    上所有文件的最新副本
    独立的存储机制(1TB
    外部驱动器目前
    专用)
  • 未被访问的文件
    有一段时间被清除
    服务器但保留在存储上
    驱动,保持足够的净空
    生活环境。
  • 一个简单的界面(可能
    基于网络)使用户可以访问
    他们所有文件的列表
    他们可以要求他们需要的人,
    从存储中复制的
    驱动到实时服务器。电子邮件
    通知将被发送一次
    文件已被复制过来。

  • 这个概念是基于我在以前的工作中听说但没有直接使用的 PACS(图片存档和通信系统)。这使用了类似的“近线”备份过程来访问大量数据,同时允许在不阻塞网络其他部分的情况下传输到本地机器。这与许多博物馆和学术图书馆所使用的原则相似,它们的总“数据持有量”比直接访问书架上提供的要多得多。

    是否有适合我要求的简单开源系统?是否有其他系统使用不同的范例,但仍能满足我的需求?

    最佳答案

    S3 在这里是一个有趣的想法。使用 cron 将超过 1 个月未访问的文件同步到亚马逊的 S3,然后创建一个 Web 界面供用户将同步的文件恢复回服务器。在将文件移动到 S3 之前和恢复之后发送电子邮件。

  • http://s3tools.org/s3cmd

  • 无限存储,只为您使用的内容付费。不是一个现有的开源项目,但也不太难组装。

    如果您需要良好的安全性,请在将文件推送到 Amazon 之前将文件包装在 GPG 加密中。 GPG 非常非常安全。

    一个更昂贵的选择是将所有数据存储在本地。如果您不想购买大型磁盘集群或大型 NAS,您可以使用 HDFS:
  • http://hadoop.apache.org/common/docs/current/hdfs_design.html

  • 并同步到行为类似于 S3 的集群。您可以使用商用硬件扩展 HDFS。尤其是如果你有几台旧机器和一个快速的网络,这可能比严肃的 NAS 便宜得多,而且在尺寸上更具可扩展性。

    祝你好运!我期待看到更多关于此的答案。

    关于用于用户文件的 Linux 数据仓库系统?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1244180/

    相关文章:

    networking - Windows 7 : Change the priority of traffic to wired instead of the wireless connection?

    visual-c++ - 使用 C++ 代码复制 .pdf 文件

    linux - arm-none-eabi 和 arm-linux-gnueabi 之间的区别?

    linux - 如何在不使用 tr 的情况下删除空行?

    linux - 目录内的模式搜索

    open-source - 如果您为 ARM ISA 实现开源处理器,是否违反任何法律/专利/许可?

    java - 如何获取WiFi网络接口(interface)的MAC地址?

    linux - ssh 协议(protocol)差异,显然在 ssh 6.x 和 5.x 之间

    java - 是否有任何好的函数库可用于 Java 中的集合,例如

    c++ - 有NPM之类的C++项目管理器吗?