apache-spark - Google Dataproc 集群内加密

标签 apache-spark encryption google-cloud-platform google-cloud-dataproc

我们正在努力实现 GDPR 合规。核心问题之一是数据加密。我知道在 Google Cloud Platform 的节点之间移动数据时会进行传输中数据加密。集群内的数据加密如何,例如在洗牌期间,在使用 Google Dataproc 时?另外,当 tmp dir 被 Spark 内部使用时,数据是否被加密(默认情况下有纯文本文件)?

最佳答案

Dataproc 基于 GCE 虚拟机构建,因此适用相同的安全性。

GCE VM(PD 或本地 SSD)磁盘上的所有数据均已加密:https://cloud.google.com/compute/docs/disks/ .所以 Spark 的 tmp 目录确实是加密的。

离开 Google 数据中心的网络通信(例如跨区域流量)已加密。此外,Google API 访问是加密的。但是,数据中心内的节点到节点通信(可能是所有集群内 Dataproc 流量)未加密。您可以在此处阅读更多信息:https://cloud.google.com/security/encryption-in-transit/ .

话虽如此,集群内通信本质上是气隙的。节点到节点通信发生在您隔离的内部 IP 上 VPC network . Dataproc 有 guidance关于如何配置防火墙规则。

您还可以使用 Dataproc private IP clusters以避免虚拟机上有外部 IP 地址。

这是关于 Google Cloud GDPR 合规性的文档:https://www.google.com/cloud/security/gdpr/ .

关于apache-spark - Google Dataproc 集群内加密,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47895436/

相关文章:

javascript - JavaScript 中的 RSA 签名

android - 如何制作移动应用程序的服务器后端?

python - Google App 引擎中的微服务

java - 无法在 java 应用程序引擎中使用 javax 邮件

hadoop - 'SparkContext' 对象没有属性 'textfile'

scala - 如何使用 Spark DataFrames 和 Cassandra 设置命名策略

scala - GroupBy 和聚合未保留 Spark SQL 排序顺序?

php - 通过将用户的ID +时间加密为JSON来创建访问 token

python - PySpark 窗口函数 : multiple conditions in orderBy on rangeBetween/rowsBetween

sql - Azure Multi-Tenancy 安全性 - Azure 联合 SQL、证书等