scala - 线程 “main” org.apache.hadoop.mapred.InvalidInputException中的异常

标签 scala hadoop apache-spark

我不断收到这个错误

Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs:/filename.txt



我已经建立了一个独立的Spark集群,并且试图在我的主节点上运行此代码。
conf = new SparkConf()
      .setAppName("Recommendation Engine1")
      .set("spark.executor.memory", "1g")
      .set("spark.driver.memory", "4g")

    val sc = new SparkContext(conf)
    val rawUserArtistData = sc.textFile("hdfs:/user_artist_data.txt").sample(false,0.05) 

在我的航站楼上,

spark-submit --class com.latentview.spark.Reco --master spark://MASTERNODE U IP:PORT --deploy-mode client /home/cloudera/workspace/new/Sparksample/target/Sparksample-0.0.1-SNAPSHOT-jar-with-dependencies.jar



这些是我尝试过的各种方法
  • 我用core-site.xml文件
  • 中存在的fs.defaultFS路径替换了hdfs:/filename.txt
  • 将hdfs:/filename.txt替换为hdfs://(如果有任何区别)
  • 将hdfs:/替换为file://,然后替换为file:///,以访问本地驱动器以获取
  • 文件

    这些似乎都无效,还有其他可能出错的地方。

    如果我做了hadoop fs -ls

    enter image description here

    这是我的文件所在的位置。

    最佳答案

    通常,路径为:
    hdfs://name-nodeIP:8020/path/to/file
    就您而言,
    hdfs://localhost:8020/user_artist_data.txt
    要么
    hdfs://machinname:8020/user_artist_data.txt

    关于scala - 线程 “main” org.apache.hadoop.mapred.InvalidInputException中的异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39158613/

    相关文章:

    Scala 如何通过索引获取子列表

    java - Hadoop 作业制定,将 ArrayList<String> 传递给 Mapper()

    hadoop - Spark 看不到 Hive 外部表

    hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

    Scala 编码风格 : initialize a val Seq depending on optional values

    java - Java/Scala 中的简单视频解码

    java - 运行Spark作业时选择JVM

    java - 基于Java DataFrame去除重复行

    scala - 光滑的 2.0.0-M2 : How to define custom types (MappedTypeMapper in slick 1. 0.0)?

    java - 错误: JAVA_HOME is not set and could not be found. 如何在Hadoop中永久设置JAVA_HOME?