我负责在具有大量现有数据的 Redshift 集群上启用加密。基于this link我知道启用后,它将创建一个新集群并复制现有数据,从而在此期间以只读方式对其进行访问。我们有许多针对 Redshift 集群运行的 ETL 作业,我正在尝试确定迁移大约需要多长时间。是否可以根据数据大小/节点类型/集群配置进行任何类型的估计?
最佳答案
Is there any kind of estimation available based on data size/node type/cluster config?
基本上,没有。这需要的时间取决于许多因素,其中一些因素超出了您的控制范围,因此很难预测。
您绝对应该首先对此进行测试,以便了解其含义以及可能需要多长时间,例如
- 通过恢复您的集群的快照来创建一个新的、相同的集群 原始簇
- 按照步骤加密集群并记录 所用时间
- 理想情况下,使用加密集群测试现有 ETL 作业
- 删除测试集群
根据我调整集群大小的经验(类似但不相同的练习),由于本地 AWS 资源、网络流量等的变化,我会在测试时间上允许 +/- 10-15% 的裕度。
如果可能的话,我建议终止与集群的所有连接以加快该过程。我们发现一个频繁轮询集群的进程导致调整大小过程花费更长时间。
作为引用点,大约有 20 个节点的 ds 集群。调整 25 Tb 数据的大小大约需要 20 小时。
关于encryption - 使用现有数据在 Redshift 集群上启用加密,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55615777/