docker - 评估Hadoop性能所需的数据大小

标签 docker hadoop bigdata

我正在使用Docker容器在一台机器上运行具有3个数据节点的Hadoop。我已经在具有200个数据点的小型模拟数据集上运行了KMeans算法。

由于Hadoop的开销，该过程需要很长时间，大约需要2到3分钟，而在R中本地运行kmeans则需要几秒钟。

我想知道，对于Hadoop，我的数据集必须有多大才能胜过非分布式方法，并且是否有可能，因为我是在一台机器上运行所有节点。

最佳答案

可用于处理数据的内核和RAM的数量比数据本身的数量更为重要，因此限制容器内的Hadoop作业实际上是在那些容器内运行很少的JVM容器。因此，可以预期的是，赋予一台完整的计算机访问权限以处理相同数量的数据将更有可能更快地处理数据，而且我敢肯定，有一种方法可以在不使用Hadoop的情况下编写相同的分布式算法

除此之外，如果数据本身不可拆分或小于hdfs块大小，则无论如何它只能由单个mapreduce任务处理。您没有提到大小，但我怀疑200个数据点最多只有几MB

关于docker - 评估Hadoop性能所需的数据大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58769846/

上一篇：hadoop - org.apache.hadoop.security.AccessControlException:/user/rstudio(不是目录)

下一篇：docker - Dockerfile ENV var字符替换

hadoop - Sqoop Hive 表导入，表数据类型与数据库不匹配

cassandra - Cassandra 如何存储空值？

linux - Docker 安装卷不跟踪 nginx 日志文件

javascript - 如何通过远程配置运行 Docker 和 node.js

google-app-engine - GAE灵活的磁盘数据运行时持久性

hadoop - SPSS Modeler，Hadoop

mysql - 在多列中搜索的最佳方式

hadoop - Sqoop - 是否可以在 HDFS 中导入平面文件

java - 查询正在运行的容器内的数据库