hadoop - 谷歌云点击部署hadoop

即使您计划使用 hadoop 连接器进行云存储，为什么 google cloud click to deploy hadoop workflow 需要选择本地永久磁盘的大小？默认大小是 500 GB ..我在想如果它确实需要一些磁盘，它的大小应该小得多。在谷歌云中使用带有 hadoop 的云存储连接器时，是否有推荐的永久磁盘大小？

《在谷歌云平台上部署Apache Hadoop》

Apache Hadoop 框架支持跨计算机集群对大型数据集进行分布式处理。

Hadoop 将部署在单个集群中。默认部署创建 1 个主 VM 实例和 2 个工作 VM，每个都有 4 个 vCPU、15 GB 内存和 500 GB 磁盘。创建一个临时部署协调器 VM 实例来管理集群设置。

Hadoop 集群使用 Cloud Storage 存储桶作为其默认文件系统，可通过 Google Cloud Storage Connector 进行访问。访问 Cloud Storage 浏览器以查找或创建可在 Hadoop 部署中使用的存储桶。

Google Compute Engine 上的 Apache Hadoop 单击以部署 Apache Hadoop Apache Hadoop 区 us-central1-a 工作节点数

云存储桶选择一个桶版本 1.2.1 主节点磁盘类型标准永久性磁盘主节点磁盘大小(GB)

工作节点磁盘类型标准永久性磁盘工作节点磁盘大小 (GB) "

最佳答案

永久性磁盘 (PD) 的三大用途是:

日志，守护进程和作业(或 YARN 中的容器)
- 在启用调试日志记录的情况下，它们可能会变得非常大，并且可能导致每秒写入很多次
MapReduce 洗牌
- 这些可能很大，但从更高的 IOPS 和吞吐量中获益更多
HDFS(图像和数据)

由于目录的布局，永久性磁盘也将用于其他项目，如作业数据(JAR、随应用程序分发的辅助数据等)，但这些可以轻松地使用引导 PD。

由于 GCE 根据磁盘大小 [1] 扩展 IOPS 和吞吐量的方式，更大的永久性磁盘几乎总是更好。 500G 可能是开始分析您的应用程序和用途的良好起点。如果您不使用 HDFS，发现您的应用程序日志不多，并且在 shuffle 时不会溢出到磁盘，那么较小的磁盘可能也能很好地工作。

如果您发现您实际上不需要或不需要任何永久性磁盘，那么 bdutil [2] 也可以作为命令行脚本存在，它可以创建具有更多可配置性和可定制性的集群。

关于hadoop - 谷歌云点击部署hadoop，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27089781/

hadoop - 谷歌云点击部署hadoop

上一篇：java - 空指针异常Hadoop

下一篇：hadoop - Apache Flume : cannot commit transaction. 达到堆空间限制