hadoop - 创建dataproc集群时报告DataNodes数量不足

标签 hadoop google-cloud-storage google-cloud-dataproc

在使用 gs://作为默认 FS 创建 dataproc 集群时,我收到“报告的 DataNode 数量不足”错误。下面是我正在使用 dataproc 集群的命令。

gcloud dataproc clusters create cluster-538f --image-version 1.2 \
    --bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
    --master-machine-type n1-standard-1 --master-boot-disk-size 500 \
    --num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
    --scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
    --properties 'core:fs.default.name=gs://dataproc_bucket_test/'

我检查并确认我正在使用的存储桶能够在存储桶中创建默认文件夹。

enter image description here

enter image description here

最佳答案

正如 Igor 所建议的,Dataproc 不支持将 GCS 作为默认 FS。我还建议取消设置此属性。请注意,fs.default.name 属性可以传递给各个作业,并且可以正常工作。

关于hadoop - 创建dataproc集群时报告DataNodes数量不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52248139/

相关文章:

android - 将android应用程序连接到谷歌云

hadoop - 在 Google Cloud Dataproc 上运行 xgboost

scala - Spark Scala S3 存储 : permission denied

python - 监控通过 Python 子进程提交的 Oozie 作业状态

java - 哪里可以获得最新的 Google 云存储客户端

python - 使用云功能从谷歌云存储桶中读取最新文件

java - 为什么 Apache Orc RecordReader.searchArgument() 没有正确过滤?

hadoop - 将命令行参数传递给 jvm(java) 映射器任务

apache-spark - 在启动 Google DataProc 集群以与 Jupyter 笔记本一起使用时,如何包含其他 jars?

apache-spark - 在 Dataproc 上使用 Spark 进行跨账户 GCS 访问