hadoop - 我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试?

标签 hadoop testing hdfs sqoop bigdata

  1. 测试人员如何测试数据是否从 RDBMS 移动到 HDFS?请仅从测试角度解释。

  2. 将数据从 RDBMS 移动到 HDFS 和将数据从 RDBMS 移动到 HIVE 之间有什么区别?据我所知,HIVE 不是数据库,那么为什么要将数据移动到 HIVE?

最佳答案

话题有点大。我会尽量用通俗易懂的方式回答。

How a tester test if the data is moved from RDBMS to HDFS? Please explain only from testing perspective.

这就是我们过去所做的。一旦迁移事件发生。我们编写了一堆测试脚本,其中我们使用大量随机记录轮询 RDBMS。从每条记录中准备主键,然后在 hive 表上搜索这些 PK,并对两个结果集进行头对头匹配。

What is the difference between moving data from RDBMS to HDFS and Moving Data from RDBMS to HIVE? As i know HIVE is not a database then why moving data to HIVE

当您将数据移动到 HDFS 时,您将整个数据集存储到 FS(即文件系统)中。 Hive 只不过是一个 Sql Wrapper,它使用相同的文件并为您提供一个 Sql 接口(interface)来读取/写入相同的数据。 Hive 不是实际的数据库,但可以用作数据库。

假设您的基础文件是一个简单的 csv。 Hive 在创建 Hive 表时提供分隔符、文件名、列信息和几个其他参数,Hive 将表示相同的文件,就好像它是一个表一样。

在此之后,您可以从配置单元表中添加/删除/更新记录或直接编辑 CSV。

关于hadoop - 我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44380005/

相关文章:

windows - 在Windows上解压缩.tar.gz文件

testing - 软件测试建议?

hadoop fs 命令显示本地文件系统而不是 hdfs

java - 将文件存储到 S3 : local file vs HDFS

hadoop - 无法删除目录/app/hadoop/tmp/dfs/name/current

hadoop - 无法保留HIVE表

hadoop - Hadoop中以namenode格式保存数据

java - 从一个测试类调用两个相同的类并比较结果

python - C程序多次运行后性能下降

Hadoop:需要从所有数据节点中删除单个数据目录