我是 Spark 的初学者,我正在尝试按照指南使用 PySpark 创建一个基于 JSON 文件内容的 DataFrame:http://spark.apache.org/docs/1.6.1/sql-programming-guide.html#overview
但是,每当我执行这个命令时(同时使用相对路径或绝对路径)
df = sqlContext.read.json("examples/src/main/resources/people.json")
总是给我错误
java.io.IOException: No input paths specified in job
这些问题的原因是什么,或者是否有我遗漏的任何 Spark 配置?我正在使用 Spark 1.6.1 和 Python 2.7.6。
最佳答案
我也遇到了这个问题,添加“file://”或“hdfs://”对我有用!感谢杰西卡的回答!!!
总之,如果你的json文件在你的本地文件系统中,使用
df = sqlContext.read.json("file:///user/ABC/examples/src/main/resources/people.json")
否则,如果您的 json 文件在 hdfs 中,请使用
df = sqlContext.read.json("hdfs://ip:port/user/ABC/examples/src/main/resources/people.json")
关于python - 基于 JSON 文件创建 DataFrame 时 Spark SQL "No input paths specified in jobs",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38150311/