hadoop - GlusterFS 或 Ceph 作为 Hadoop 的后端

标签 hadoop ceph glusterfs

有没有人尝试过使用 GlusterFS 或 Ceph 作为 Hadoop 的后端?我不是在谈论只使用插件来缝合东西。性能比HDFS本身好吗?是否适合生产使用。

此外,将对象存储、hadoop hdfs 存储合并为一个存储真的是个好主意吗?或者最好将它们分开。

最佳答案

我以前用过 GlusterFS,它有一些不错的特性,但最后我选择使用 HDFS 作为 Hadoop 中的分布式文件系统。

GlusterFS 的优点在于它不需要主客户端节点。集群中的每个节点都是平等的,所以 GlusterFS 没有单点故障。我在 GlusterFS 中发现的另一件事是它有 glusterfs-client 模块,http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume ,当你想将文件存储到 glusterfs 时,你不需要与 GlusterFS api 接口(interface),你只需要将文件复制到 glusterfs-client 中的挂载卷即可完成工作。

但我发现 GlusterFS 很难集成到 Hadoop 生态系统中,例如 Spark、Mapreduce 等,其中 HDFS 受到 Hadoop 生态系统中所有大多数组件的支持。我认为 GlusterFS 非常适合构建一个独立于 Hadoop 的文件存储之类的集群系统。

关于hadoop - GlusterFS 或 Ceph 作为 Hadoop 的后端,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34041084/

相关文章:

centos7 - 在 LVM 之上扩展 GlusterFS

linux - 安装 GlusterFS 时出错

java - Hadoop Mapreduce MultipleInputs 无法加载映射器类

mysql - 使用sqoop将parquet格式数据导出到mysql

使用 secretfile 挂载 cephfs

linux - 无法使用 ceph-deploy : Error EACCES: access denied 部署 Ceph 管理器守护进程

glusterfs - 我可以不挂载直接使用 GlusterFS 卷存储吗?

linux - 如何从本地拷贝hadoop examples jar到hadoop环境?

oracle - 在Apache Hive中处理Oracle的ROWID

ubuntu - CEPH HEALTH_WARN 降级数据冗余 : pgs undersized after reweighting