hadoop - 谷歌云点击部署hadoop

标签 hadoop google-cloud-storage google-cloud-platform google-hadoop

即使您计划使用 hadoop 连接器进行云存储,为什么 google cloud click to deploy hadoop workflow 需要选择本地永久磁盘的大小?默认大小是 500 GB ..我在想如果它确实需要一些磁盘,它的大小应该小得多。在谷歌云中使用带有 hadoop 的云存储连接器时,是否有推荐的永久磁盘大小?

《在谷歌云平台上部署Apache Hadoop》

Apache Hadoop 框架支持跨计算机集群对大型数据集进行分布式处理。

Hadoop 将部署在单个集群中。默认部署创建 1 个主 VM 实例和 2 个工作 VM,每个都有 4 个 vCPU、15 GB 内存和 500 GB 磁盘。创建一个临时部署协调器 VM 实例来管理集群设置。

Hadoop 集群使用 Cloud Storage 存储桶作为其默认文件系统,可通过 Google Cloud Storage Connector 进行访问。访问 Cloud Storage 浏览器以查找或创建可在 Hadoop 部署中使用的存储桶。

Google Compute Engine 上的 Apache Hadoop 单击以部署 Apache Hadoop Apache Hadoop 区 us-central1-a 工作节点数

云存储桶 选择一个桶 版本 1.2.1 主节点磁盘类型 标准永久性磁盘 主节点磁盘大小(GB)

工作节点磁盘类型 标准永久性磁盘 工作节点磁盘大小 (GB) "

最佳答案

永久性磁盘 (PD) 的三大用途是:

  • 日志,守护进程和作业(或 YARN 中的容器)
    • 在启用调试日志记录的情况下,它们可能会变得非常大,并且可能导致每秒写入很多次
  • MapReduce 洗牌
    • 这些可能很大,但从更高的 IOPS 和吞吐量中获益更多
  • HDFS(图像和数据)

由于目录的布局,永久性磁盘也将用于其他项目,如作业数据(JAR、随应用程序分发的辅助数据等),但这些可以轻松地使用引导 PD。

由于 GCE 根据磁盘大小 [1] 扩展 IOPS 和吞吐量的方式,更大的永久性磁盘几乎总是更好。 500G 可能是开始分析您的应用程序和用途的良好起点。如果您不使用 HDFS,发现您的应用程序日志不多,并且在 shuffle 时不会溢出到磁盘,那么较小的磁盘可能也能很好地工作。

如果您发现您实际上不需要或不需要任何永久性磁盘,那么 bdutil [2] 也可以作为命令行脚本存在,它可以创建具有更多可配置性和可定制性的集群。

  1. https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/
  2. https://cloud.google.com/hadoop/

关于hadoop - 谷歌云点击部署hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27089781/

相关文章:

google-cloud-platform - 使用 "--set-sql-instance"参数部署到云运行时,云构建权限被拒绝

hadoop - 像Hive一样分区在Pig中

hadoop - 配置单元,使用一行获取数据位置

scala - hiveql删除重复项,包括具有重复项的记录

ubuntu - 无法启动 hive 提示

pandas - 将多个文件从 Google Cloud Storage 加载到单个 Pandas Dataframe 中

google-cloud-firestore - Cloud Storage 是否与 Firestore 同步离线工作

google-app-engine - 增量更新 google blobstore 或云存储?

npm - 将 Google Cloud Functions 与 registry.npmjs.org 以外的注册表一起使用

python - 如何将 Google Cloud Firestore 本地模拟器用于 python 和测试目的