hadoop - Phoenix csv大容量数据加载失败

标签 hadoop mapreduce yarn azure-hdinsight phoenix

我正在尝试在HDInsight Hbase群集上使用Phoenix csv批量加载工具加载数据集(280GB)。作业失败，并出现以下错误:

18/02/23 06:09:10 INFO mapreduce.Job: Task Id : attempt_1519326441231_0004_m_000067_0, Status : FAILEDError: Java heap spaceContainer killed by the ApplicationMaster.Container killed on request. Exit code is 143Container exited with a non-zero exit code 143

这是我的集群配置:

Region Nodes
8 cores, 56 GB RAM, 1.5TB HDD
Master Nodes
4 cores, 28GB, 1.5TB HDD

我尝试将yarn.nodemanager.resource.memory-mb的值从5GB增加到38GB，但是工作仍然失败。

谁能帮我解决这个问题？

最佳答案

您能否提供更多详细信息？例如您是如何开始工作的？您是否遵循这里的指示-https://blogs.msdn.microsoft.com/azuredatalake/2017/02/14/hdinsight-how-to-perform-bulk-load-with-phoenix/？

具体来说，您能否提供您使用的命令以及更多信息，例如作业立即失败或运行了一段时间然后开始失败？除上述日志消息外，还有其他日志消息吗？

关于hadoop - Phoenix csv大容量数据加载失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48954539/

上一篇：php - 无法在Docker中安装MongoDB PHP扩展

下一篇：docker - HOME 目录下的数据是如何保存在 cloud shell 上的？

hadoop - 如何在hadoop中解压缩文件？

hadoop - 多个reducer如何在Hadoop中只输出一个部分文件？

java - Hadoop 独立模式给出连接错误

apache-spark - ApplicationMaster-在YARN中运行的不同类型的应用程序是否有所不同？

hadoop - 安装Hadoop.ERROR时出现一些问题:尝试以root用户身份在hdfs namenode上进行操作:

hadoop - to_utc_timestamp 是否考虑夏令时？

hadoop - 如何在 hive create table "TBLPROPERTIES"中引用 HBase 命名空间

java - Hadoop 递归映射

c++ - 使用C++运行Hadoop管道时不存在此类文件