hadoop - GlusterFS 或 Ceph 作为 Hadoop 的后端

有没有人尝试过使用 GlusterFS 或 Ceph 作为 Hadoop 的后端？我不是在谈论只使用插件来缝合东西。性能比HDFS本身好吗？是否适合生产使用。

此外，将对象存储、hadoop hdfs 存储合并为一个存储真的是个好主意吗？或者最好将它们分开。

最佳答案

我以前用过 GlusterFS，它有一些不错的特性，但最后我选择使用 HDFS 作为 Hadoop 中的分布式文件系统。

GlusterFS 的优点在于它不需要主客户端节点。集群中的每个节点都是平等的，所以 GlusterFS 没有单点故障。我在 GlusterFS 中发现的另一件事是它有 glusterfs-client 模块，http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume ，当你想将文件存储到 glusterfs 时，你不需要与 GlusterFS api 接口(interface)，你只需要将文件复制到 glusterfs-client 中的挂载卷即可完成工作。

但我发现 GlusterFS 很难集成到 Hadoop 生态系统中，例如 Spark、Mapreduce 等，其中 HDFS 受到 Hadoop 生态系统中所有大多数组件的支持。我认为 GlusterFS 非常适合构建一个独立于 Hadoop 的文件存储之类的集群系统。

关于hadoop - GlusterFS 或 Ceph 作为 Hadoop 的后端，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34041084/

上一篇：hadoop - 将时间戳插入 Hive

下一篇：hadoop - 配置单元失败 : ParseException line 2:0 cannot recognize input near '' macaddress '' ' CHAR' '(' in column specification

相关文章：

centos7 - 在 LVM 之上扩展 GlusterFS

linux - 安装 GlusterFS 时出错

java - Hadoop Mapreduce MultipleInputs 无法加载映射器类

mysql - 使用sqoop将parquet格式数据导出到mysql

使用 secretfile 挂载 cephfs

linux - 无法使用 ceph-deploy : Error EACCES: access denied 部署 Ceph 管理器守护进程

glusterfs - 我可以不挂载直接使用 GlusterFS 卷存储吗？

linux - 如何从本地拷贝hadoop examples jar到hadoop环境？

oracle - 在Apache Hive中处理Oracle的ROWID

ubuntu - CEPH HEALTH_WARN 降级数据冗余 : pgs undersized after reweighting