hadoop - 带有 emrfs 的 hive

标签 hadoop hive amazon-emr

我正在使用 sqoop 将表从 Amazon RDS 导入到 Hive。该进程正在运行,数据存储在配置单元默认的 hdfs 目录中:/user/hive/warehouse。

我需要将存储位置从 hdfs 更改为 emrfs s3。

据我了解,我需要将属性 hive.metastore.warehouse.dir 的值(在主节点上的 hive-site.xml 中)更改为 s3//bucket/warehouse-location。看来我没有修改文件 hive-site.xml 的权限。

我正在寻找一些关于如何最好地做到这一点的建议。

苏堤

最佳答案

您需要 sudo 权限才能修改主节点上的 hive-site.xml 文件(通常位于/etc/hive/conf/hive-site.xml)。

如果这不是一个选项,请尝试在集群启动之前设置此属性。 CloudFormation 示例:

                "Configurations" : [
                {
                    "Classification" : "hive-site",
                    "ConfigurationProperties" : {
                        "hive.metastore.warehouse.dir" : "s3://your_s3_bucket/hive_warehouse/",
                    }
                }
            ],

或通过“编辑软件设置”部分中的 EMR 对话框

关于hadoop - 带有 emrfs 的 hive ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42170696/

相关文章:

mongodb - HDP沙箱中MongoDB Hadoop连接器故障产生的Hive日志在哪里?

hadoop - 从Hive到Hive的Sqoop导入

amazon-web-services - 如何让自定义log4j.properties对AWS EMR集群上的Spark driver和executor生效?

hadoop - 如何用 yarn 进行elasticsearch?

json - 在JSON字段中进行HBase搜索

hive - Hive Alter表更改列名

amazon-web-services - 当从 S3 读取时,为什么我的 LZO 索引在 Amazon EMR 上需要很长时间?

java - EMR 集群在 AWS 控制台 UI 上不可见

hadoop - 无法在 FOREACH block 内调用 PIG 宏

java - 将 Mapreduce1 项目迁移到 YARN 指南