hadoop - 关于在 spark 上配置配置单元的问题

标签 hadoop apache-spark hive hdfs bigdata

我已经下载了spark-2.0.0-bin-hadoop2.7。谁能建议如何在此配置配置单元并在 scala 控制台中使用？现在我可以使用 Scala(spark-shell 控制台)在文件上运行 RDD。

最佳答案

遵循官方 Hive on Spark 文档:

https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

您可以使用以下命令在 Hive 上设置 Spark 引擎:

set hive.execution.engine=spark;

或者通过将其添加到 hive-site.xml(引用 kanishka post)

然后在 Hive 2.2.0 之前，将 spark-assembly jar 复制到 HIVE_HOME/lib。

从 Hive 2.2.0 开始，Hive on Spark 与 Spark 2.0.0 及更高版本一起运行，它没有程序集 jar。

要以 YARN 模式(yarn-client 或 yarn-cluster)运行，请将以下 jar 复制到 HIVE_HOME/lib。

scala-library

spark-core

spark-network-common

设置spark_home:

export $SPARK_HOME=/path-to-spark

启动 Spark Master 和 Workers:

spark-class org.apache.spark.deploy.master.Master

spark-class org.apache.spark.deploy.worker.Worker spark://MASTER_IP:PORT

配置星火:

set spark.master=<Spark Master URL>;
set spark.executor.memory=512m; 
set spark.yarn.executor.memoryOverhead=10~20% of spark.executor.memory(value);     
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

关于hadoop - 关于在 spark 上配置配置单元的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39716363/

上一篇：hadoop - 如何查询制作压缩的parquet文件？

下一篇：hadoop - 使用 ChainReducer 抛出异常添加多个 Reducer

apache-spark - Spark 结构化流文件源起始偏移量

scala - 在 Spark 中使用键作为列名和值作为行的 HashMap 创建数据框

hadoop - 失败:SemanticException org.apache.hadoop.hive.ql.metadata.HiveException

apache - Apache Ambari修补程序信息

hadoop - 如何在单节点中安装大数据生态系统

java - Jersey + Spark javax.ws.rs.core.UriBuilder.uri

Hive FROM_UNIXTIME() 以毫秒为单位

hadoop - Hbase 区域服务器无法与 HMaster 通信

scala - 在 Java/Scala for Hadoop 中构建数据分析管道的最成熟的库是什么？