hadoop - Dataproc HDFS 文件 URI

标签 hadoop sqoop google-cloud-dataproc

我有一个问题:如何获取位于 dataproc hdfs 中的文件的路径/url?我想基于位于 dataproc hdfs 中的文件运行 M/R 作业。

最佳答案

以下是 Dataproc 集群中的所有有效 HDFS URI:

  1. hdfs://<master-hostname>:8020/<path-to-file>
  2. hdfs://<master-hostname>/<path-to-file>
  3. hdfs:///<path-to-file>

第三个有效,因为默认情况下,在 Dataproc 集群的每个节点中,fs.defaultFS属性配置为 hdfs://<master-hostname>/etc/hadoop/conf/core-site.xml 。和8020是默认的NameNode端口。

  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://<master-hostname></value>
    <description>
      The name of the default file system. A URI whose scheme and authority
      determine the FileSystem implementation. The uri's scheme determines
      the config property (fs.SCHEME.impl) naming the FileSystem
      implementation class. The uri's authority is used to determine the
      host, port, etc. for a filesystem.
    </description>
  </property>

您可以运行hadoop fs -ls <uri>在任何节点上列出文件。

关于hadoop - Dataproc HDFS 文件 URI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69349242/

相关文章:

hadoop - 配置单元单节点设置

hadoop - Cassandra 与 Hadoop 的结合使用

hadoop - Sqoop + S3 + Parquet 导致 Wrong FS 错误

hadoop - 使用 sqoop 从 Oracle(Windows) 导入数据到 HDFS (CDH3) 机器

google-cloud-dataproc - 如何运行创建Dataproc集群,运行作业,从Cloud Function删除集群

google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群?

hadoop - Hive 内部表和外部表的区别?

python - Hadoop Streaming Job-python停留在map 0%时减少了CDH4.5中的0%

java - 如何通过sqoop从sybase导入数据?

apache-spark - 如何在 Cloud Dataproc 上安装自定义版本的 Apache Spark