hadoop - 如何在使用 sqoop 摄取数据时屏蔽数据

标签 hadoop sqoop hadoop2 sqoop2 data-masking

我正在使用 sqoop 提取数据。有什么方法可以屏蔽 sqoop 中的任何特定列或修改每个单元格。 例如:

creditcardinfo
7888-3333-2222-1002
1111-2342-1235-2090
2331-2131-2222-3421   

我希望数据在摄取后是这样的:

creditcardinfo
XXXX-XXXX-XXXX-1002
XXXX-XXXX-XXXX-2090
XXXX-XXXX-XXXX-3421   

creditcardinfo
1002
2090
3421  

在 sqoop 中有可能吗?我试图找出答案,但无法获得太多信息。

最佳答案

最简单的方法是使用自定义查询通过 sqoop 进行摄取,在自定义查询中您可以执行所需的所有转换。您可以在这里查看以供引用:https://sqoop.apache.org/docs/1.4.1-incubating/SqoopUserGuide.html#_free_form_query_imports .

关于hadoop - 如何在使用 sqoop 摄取数据时屏蔽数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37108495/

相关文章:

java - 获取 Hadoop 集群和作业统计信息

sqoop - 如何使用 Sqoop 和 Avro 作为数据文件增量加载数据?

hadoop - 文件压缩格式和容器文件格式

hadoop - 从 SAS EG 创建 Hive 表

performance - 如何强制 PigStorage 输出几个大文件而不是数千个小文件?

java - Hadoop如何计算不同单词的数量

scala - 扩展教程:com.twitter.scalding.InvalidSourceException:一条或多条路径中的数据丢失

hadoop - SQOOP - 代码太大 > MAX 表定义?

hadoop - 使用Sqoop执行列表时,找不到适用于SQL Server Express 2008 R2的jdbc的驱动程序

java - 我可以通过 hadoop 中的代码明确地提前完成 map task 吗?