python - 提交pyspark作业时出现语法错误

我已经通过VMware在ubuntu 14上安装了hadoop和spark。我正在尝试在独立模式下在spark / examples / ...中运行wordcount的python脚本，但是它给出了语法错误。

    ./bin/spark-submit --master yarn --deploy-mode client --executor-memory  2g  usr/local/spark/examples/src/main/python/wordcount.py '/usr/local/spark/README.md'
     File "<stdin>", line 1
    ./bin/spark-submit --master yarn --deploy-mode client --executor-memory 1g 
    /usr/local/spark/examples/src/main/python/wordcount.py '/usr/local/README.md'
        ^
    SyntaxError: invalid syntax

我是Spark的初学者，请告诉我如何解决它。

最佳答案

wordcount.py需要两个输入参数，请参见here

关于python - 提交pyspark作业时出现语法错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41039178/

上一篇：hadoop - 从具有Parquet格式的配置单元表查询时如何抑制日志

下一篇：hadoop - Hive中的解码时间-解码规则是什么？

相关文章：

sql - 如何找到指定列表中的第一个值？

python - 如何在Python中生成由多个图组成的动画？

jar - Hadoop HADOOP_CLASSPATH 问题

apache-spark - 如何使用 spark DF 或 DS 读取 ".gz"压缩文件？

hadoop - Apache Oozie 3.3.2 构建错误 |插件解析异常

linux - 在 Linux 上正确配置 PySpark 和 Anaconda3

azure - 如何在 ADLS Gen2 上启动批处理作业全局提交？

python - Pandas:将 DataFrame 转换为每个单元格的均值和标准差

python - iPython NoteBook 的 MathJax 符号帮助

python - 你如何在 linux 上为 python 2.7 和 python 3.2 设置 virtualenv？