linux - 如何使用 linux HDInsight 更改 zeppelin 的资源

标签 linux apache-spark azure-hdinsight ambari apache-zeppelin

我之前使用过 Windows 版本的 HDInsight,它有一个选项卡,您可以在其中为 Zeppelin 设置每个工作节点的内核数和内存数。

我按照本教程让 Zeppelin 工作: https://azure.microsoft.com/en-us/documentation/articles/hdinsight-apache-spark-use-zeppelin-notebook/

HDInsight 的 Linux 版本使用 Ambari 来管理资源,但我似乎找不到更改 Zeppelin 设置的方法。

  • 在左侧的服务列表中,无法将 Zeppelin 选为单独的服务。当我在操作中选择“添加服务”时,它似乎也无法添加。

  • 我尝试使用覆盖在 Ambari 中编辑常规 spark 配置,然后将工作节点添加到我的新配置组并增加自定义 spark-defaults 中的内核和 RAM 数量。 (然后单击保存并重新启动所有受影响的服务。)

  • 我尝试使用

    编辑 spark 设置
    vi /etc/spark/conf/spark-defaults.conf
    

在头节点上,但 Ambari 未拾取它。

对于每次大约需要 1000-1100 秒的查询,Zeppelin 的性能似乎保持不变。

最佳答案

Zeppelin 不是服务,因此它不应出现在 Ambari 中。如果您致力于以这种方式管理它,您也许能够让它发挥作用 https://github.com/tzolov/zeppelin-ambari-plugin

要通过 ssh 进行编辑,您需要编辑 zeppelin-env.sh 文件。首先给自己编辑权限。

sudo chmod u+w /usr/hdp/current/incubator-zeppelin/conf/zeppelin-env.sh 

然后使用

编辑 zeppelin 配置
vi /usr/hdp/current/incubator-zeppelin/conf/zeppelin-env.sh 

这里可以配置ZEPPELIN_JAVA_OPTS变量,添加:

-Dspark.executor.memory=1024m -Dspark.executor.cores=16 

综上所述……您有什么理由不能只使用 Jupyter notebook 代替?

关于linux - 如何使用 linux HDInsight 更改 zeppelin 的资源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34860650/

相关文章:

c++ - 如何获得独立于系统时间的时间差(毫秒)?

php - ssh2_connect 导致错误 324 (net::ERR_EMPTY_RESPONSE):

azure - Hive:两点之间的距离

linux - 通过差异和补丁添加完整目录

linux - `FUTEX_REQUEUE` 错误是什么?

dataframe - 如何合并具有相同列数的两个数据框?

mysql - 如何将数据从csv加载到Spark中的mysql数据库?

python - 如何对数据框应用多个过滤器?

Azure HDInsights Spark 集群安装外部库

azure - HDInsight 服务器本地多节点 |不在 Azure 上