hadoop - Phoenix csv大容量数据加载失败

标签 hadoop mapreduce yarn azure-hdinsight phoenix

我正在尝试在HDInsight Hbase群集上使用Phoenix csv批量加载工具加载数据集(280GB)。作业失败,并出现以下错误:

18/02/23 06:09:10 INFO mapreduce.Job: Task Id : attempt_1519326441231_0004_m_000067_0, Status : FAILEDError: Java heap spaceContainer killed by the ApplicationMaster.Container killed on request. Exit code is 143Container exited with a non-zero exit code 143



这是我的集群配置:
Region Nodes
8 cores, 56 GB RAM, 1.5TB HDD
Master Nodes
4 cores, 28GB, 1.5TB HDD

我尝试将yarn.nodemanager.resource.memory-mb的值从5GB增加到38GB,但是工作仍然失败。

谁能帮我解决这个问题?

最佳答案

您能否提供更多详细信息?例如您是如何开始工作的?您是否遵循这里的指示-https://blogs.msdn.microsoft.com/azuredatalake/2017/02/14/hdinsight-how-to-perform-bulk-load-with-phoenix/

具体来说,您能否提供您使用的命令以及更多信息,例如作业立即失败或运行了一段时间然后开始失败?除上述日志消息外,还有其他日志消息吗?

关于hadoop - Phoenix csv大容量数据加载失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48954539/

相关文章:

apache-spark - 在带有附加文件的 YARN 集群上运行 Spark 作业

hadoop - 如何在hadoop中解压缩文件?

hadoop - 多个reducer如何在Hadoop中只输出一个部分文件?

java - Hadoop 独立模式给出连接错误

apache-spark - ApplicationMaster-在YARN中运行的不同类型的应用程序是否有所不同?

hadoop - 安装Hadoop.ERROR时出现一些问题:尝试以root用户身份在hdfs namenode上进行操作:

hadoop - to_utc_timestamp 是否考虑夏令时?

hadoop - 如何在 hive create table "TBLPROPERTIES"中引用 HBase 命名空间

java - Hadoop 递归映射

c++ - 使用C++运行Hadoop管道时不存在此类文件