amazon-web-services - 在 Amazon EMR 上安装 Impala 2.3

标签 amazon-web-services cloudera-cdh amazon-emr impala cloudera-manager

我发现 Impala 2.3 仅在 Cloudera CDH 5.5 及更高版本上受支持。 Impala 2.2 可以安装在 Amazon EMR 上,因为 GitHub 上有可用的 Bootstrap 脚本,并且您不需要安装 Cloudera。

但是,我没有看到任何在 Amazon EMR 上安装 Cloudera CDH 5.5 或 5.6 的方法。我想安装 Impala 2.3,那么有什么方法可以在 Amazon EMR 上安装 Impala 2.3 吗?

最佳答案

嗯,我之前的回答只要“没有提供问题的答案”就被删除了。我不会争论是否对这个问题给出部分错误的答案更好,或者在没有基础的情况下做出明确的主张是否是一个好的答案:/。

无论如何,我都不会放弃:)

是的,可以在纸上安装“任何东西”

启动 EMR 集群后,所有实例都将显示在您的 EC2 控制台上。唯一的问题是,您必须小心分配正确的权限才能通过 SSH 访问您的实例。我的建议是创建一个具有访问权限的特定安全组,并使用集群的高级配置将此额外的安全组分配给实例。 通过正确的配置,您可以 ssh 进入任何实例并安装任何内容(如果您的 VPC 配置正确,您应该能够 scp 任何文件或从互联网下载)。请注意,用户将是“hadoop”而不是“ec2-root”,但这已记录在 EMR 用户指南中。

请记住,集群已“终止”,因此 EMR 实例不稳定,并且安装不会在集群终止后继续存在。

另一方面,使用最新版本的 EMR AMI 和 AWS 的最新功能(我认为情况一直如此,但是现在并不重要),您应该能够创建一些操作在 Bootstrap 上安装你想要的任何东西。

使用集群的“高级配置”,您可以访问要在集群上执行的“引导”操作。您甚至可以根据节点类型(主节点、核心节点、任务)执行不同的操作。您应该将脚本(和/或 jar 文件)存储在 S3 存储桶上,并使该存储桶可供您的集群使用。在论文中,您可以在组成 EMR 集群的这些 EC2 实例上安装 Impala,但我不确定这是否可行。

更多信息,您可以阅读http://docs.aws.amazon.com//emr/latest/ManagementGuide/emr-plan-bootstrap.html

对于 EMR AMI 的早期版本和 Impala 的最新版本,您可以阅读 https://github.com/awslabs/emr-bootstrap-actions/tree/master/impala

谢谢马克,你迫使我更好地阐述我的评论。

关于amazon-web-services - 在 Amazon EMR 上安装 Impala 2.3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36058756/

相关文章:

hadoop - 执行 sqoop 作业时覆盖多个 sqoop 属性

amazon-web-services - AWS 托管服务中的 Apache Storm 替代方案是什么?

apache-spark - 具有多个加密 key 提供商的 EMR

java - 如何从java中的s3获取触发lambda的文件名

linux - 我们如何在 AWS 中基于 ubuntu 的 EC2 机器中永久设置环境变量?

hadoop - 如何找出CDH kerburised群集中特定kafka主题的最大偏移值

hadoop - 为什么同时运行 HA HDFS 和 MR1 时自动故障转移会中断?

amazon-s3 - 如何在设置 DataPipeline 以将 DynamoDB 数据导出到 S3 时计算 'DynamoDB read throughput ratio'

amazon-web-services - 子网参数不接受列表作为云形成模板 aws 中的输入

spring - 在 Amazon Beanstalk 上处理 Spring Boot 集群 Websocket