amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

我正在 hadoop hive 上运行一个实验。在这个实验中，我在 2 个不同的硬件设置上运行相同的配置单元作业。它托管在 AWS EMR 中。这是我运行的 hive.sql 脚本:

DROP DATABASE IF EXISTS labtest;

CREATE DATABASE labtest;

CREATE TABLE IF NOT EXISTS laborder (Insertts TIMESTAMP, ordernr STRING, Patientnr STRING, visitnr STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   "separatorChar" = ",",
   "quoteChar"     = "\""
) ;
LOAD DATA INPATH '${INPUT}/laborder.csv' OVERWRITE INTO TABLE laborder;

CREATE TABLE IF NOT EXISTS labanalyse (resultaat STRING, deleted BOOLEAN,  analysecodePk INT, Inserttimestamp TIMESTAMP,
specimennr STRING, uitvoeringsts TIMESTAMP
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   "separatorChar" = ",",
   "quoteChar"     = "\""
) ;
LOAD DATA INPATH '${INPUT}/labresult.csv' OVERWRITE INTO TABLE laborder;

CREATE TABLE IF NOT EXISTS labspecimen (specimennr STRING, ordernr STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   "separatorChar" = ",",
   "quoteChar"     = "\""
) ;
LOAD DATA INPATH '${INPUT}/labspecimen.csv' OVERWRITE INTO TABLE labspecimen;


CREATE TABLE IF NOT EXISTS labanalysecode (pk INT, analysecode STRING, analysecodeversion STRING, view INT, referencevalue STRING, unit STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   "separatorChar" = ",",
   "quoteChar"     = "\""
) ;
LOAD DATA INPATH '${INPUT}/labordercodes.csv' OVERWRITE INTO TABLE labanalysecode;


SELECT * FROM laborder 
INNER JOIN labspecimen ON labspecimen.ordernr = laborder.ordernr
INNER JOIN labanalyse ON labanalyse.specimennr = labspecimen.specimennr
INNER JOIN labanalysecode ON labanalysecode.pk = labanalyse.analysecodepk;

我使用以下数据集大小运行此脚本:

laborder = 40 MB
labresult = 150 MB
labspecimen = 46 MB

此作业运行大约 40 秒。我的期望是在具有 1 个主节点和 2 个核心节点的设置上运行它比在 1 个主节点/4 个核心节点系统上运行它慢。然而，差异很小。关于我做错了什么的任何线索？如何更好地利用多台机器？

最佳答案

看来您的每个输入都是一个文件。这是一种非常低效的操作 Hive 的方式，因为它被设计为并行处理数据。

最佳实践是将其指向一个包含许多文件的目录，每个节点至少一个文件，或者更好的是每个切片一个文件，可以跨集群运行。

此外，您的输入数据非常小。 Hadoop 和 Hive 旨在跨 GB 甚至 TB 的数据工作。小到 40 MB 的数据对于 Hive 来说不是一个好的用例，因为启 Action 业的开销可能比实际处理数据花费的时间更长。

如果您的数据那么小，请使用传统数据库甚至 Excel 电子表格!

关于amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47059713/

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

上一篇：hadoop - 将数据从 HDFS 加载到 Hive 时出现问题

下一篇：java - 尼菲 :can't import getFileSystem in customProcessor?