我已经下载了spark-2.0.0-bin-hadoop2.7。谁能建议如何在此配置配置单元并在 scala 控制台中使用?现在我可以使用 Scala(spark-shell 控制台)在文件上运行 RDD。
最佳答案
遵循官方 Hive on Spark 文档:
https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started
您可以使用以下命令在 Hive 上设置 Spark 引擎:
set hive.execution.engine=spark;
或者通过将其添加到 hive-site.xml(引用 kanishka post)
然后在 Hive 2.2.0 之前,将 spark-assembly jar 复制到 HIVE_HOME/lib。
从 Hive 2.2.0 开始,Hive on Spark 与 Spark 2.0.0 及更高版本一起运行,它没有程序集 jar。
要以 YARN 模式(yarn-client 或 yarn-cluster)运行,请将以下 jar 复制到 HIVE_HOME/lib。
scala-library
spark-core
spark-network-common
设置spark_home:
export $SPARK_HOME=/path-to-spark
启动 Spark Master 和 Workers:
spark-class org.apache.spark.deploy.master.Master
spark-class org.apache.spark.deploy.worker.Worker spark://MASTER_IP:PORT
配置星火:
set spark.master=<Spark Master URL>;
set spark.executor.memory=512m;
set spark.yarn.executor.memoryOverhead=10~20% of spark.executor.memory(value);
set spark.serializer=org.apache.spark.serializer.KryoSerializer;
关于hadoop - 关于在 spark 上配置配置单元的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39716363/