python - apache Spark 输入路径不存在错误

我是学习spark的初学者。我正在关注一本书“Learning Spark，作者:Holden Karau、Andy Konwinski、Patrick Wendell 和 Matei Zaharia”。

本书给出了Python代码的示例

>>> lines = sc.textFile("README.md") # Create an RDD called lines
>>> lines.count() # Count the number of items in this RDD
127
>>> lines.first() # First item in this RDD, i.e. first line of README.md
u'# Apache Spark'

我想知道文件“README.md”在哪里？因为书中没有提供任何信息。此外，每当我尝试运行此代码时都会出现错误 “输入路径不存在:hdfs://quickstart.cloudera:8020/user/cloudera/README.md”

我正在 Codera 虚拟机上为 vmware 工作站上的 Spark 运行此代码。

最佳答案

由于我使用 cloudera 虚拟机进行 Spark，因此路径“hdfs://quickstart.cloudera:8020/user/cloudera/README.md”中不存在文件 README.md。现在，我已经使用了

lines = sc.textFile("file:///home/cloudera/Desktop/README.md")

Spark 将从本地文件系统访问路径“/home/cloudera/Desktop/README.md”中存在的文件。

关于python - apache Spark 输入路径不存在错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41621587/

上一篇：java - for循环后全局变量的值不会改变

下一篇：linux - 如何从配置单元终端中运行 hql 文件？

相关文章：

python - 尽管一切似乎都正常，神经网络却给出了错误的预测

python - 如何组合多个朴素贝叶斯分类器的输出？

Python ElementTree - 插入元素的副本

java - Scala MapReduce 框架提供类型不匹配

apache-spark - Spark中的XML处理

apache-spark - 使用 spark.sql.autoBroadcastJoinThreshold 时，Spark Driver 不释放内存

multithreading - Spark/YARN 上允许多线程吗？

python - Django 版本选择

java - java.lang.RuntimeException:java.lang.ClassNotFoundException:com.mysql.jdbc.Driver

java - 如何提高使用 mapreduce 分析日志文件的性能