我正在尝试将驻留在 Amazon S3 中的文本文件中的数据加载到 Redshift 数据库中。我正在使用 SQL Workbench并使用 COPY 命令加载。文件很重~360GB。 2 小时后,连接关闭并抛出错误消息,如主题中所示。我尝试将超时设置为“0”(无限制)
最佳答案
经过一些帮助,我找到了原因。
我正在向其加载数据的表具有名为 "COMPUPDATE " 的属性 ON 。这基本上意味着,复制命令的一部分将尝试分析表以进行适当的压缩并应用它们。
这是问题之一。在复制命令中将属性设置为 OFF 可以节省时间并将其中一项任务减少到数据库。
我们以后总是可以使用 ANALYZE COMPRESSION 检查压缩 命令
其次,对于大型数据集,我假设每一列都使用 Zstandard (ZSTD)。因此,在加载数据之前,请尝试检查是否需要压缩。
第三,建议GZIP 文件并尝试加载数据。更多信息可参见 here
第四,也是最重要的一点,大文件应该被拆分成更小的文件,以最好地使用您帐户可用的集群。这将有助于在所有节点之间分配工作负载。 <强> More here
希望这对您有所帮助。如果您还需要什么,请告诉我。
关于amazon-web-services - 亚马逊(600000)错误设置/关闭连接: An Existing connection was forcibly closed by remote host,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48378969/