我是学习spark的初学者。我正在关注一本书“Learning Spark,作者:Holden Karau、Andy Konwinski、Patrick Wendell 和 Matei Zaharia”。
本书给出了Python代码的示例
>>> lines = sc.textFile("README.md") # Create an RDD called lines
>>> lines.count() # Count the number of items in this RDD
127
>>> lines.first() # First item in this RDD, i.e. first line of README.md
u'# Apache Spark'
我想知道文件“README.md”在哪里?因为书中没有提供任何信息。此外,每当我尝试运行此代码时都会出现错误 “输入路径不存在:hdfs://quickstart.cloudera:8020/user/cloudera/README.md”
我正在 Codera 虚拟机上为 vmware 工作站上的 Spark 运行此代码。
最佳答案
由于我使用 cloudera 虚拟机进行 Spark,因此路径“hdfs://quickstart.cloudera:8020/user/cloudera/README.md”中不存在文件 README.md。现在,我已经使用了
lines = sc.textFile("file:///home/cloudera/Desktop/README.md")
Spark 将从本地文件系统访问路径“/home/cloudera/Desktop/README.md”中存在的文件。
关于python - apache Spark 输入路径不存在错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41621587/