我是hadoop的新手。这是高级人员要求检查我可以管理Hadoop的能力的方案。
场景:
您需要为从任何来源将数据导入到hdfs的客户端提供支持。您没有计算机,也没有他正在提取的文件,只有您需要通过电话获得支持。
假设他正在导入700个文件,但导入后hdfs仅包含550个文件。其余文件哪里出错了?
您如何提供不同的解决方案,要求他检查并提取HDFS中正确的数据量?客户什么都不知道,意味着他不是开发人员。因此,如果您要提供任何解决方案,则需要简短说明。
他可能会使用来自sqoop,MR, hive , pig ,hbase的任何组件。请简要介绍各组件的解决方案。
另外,它可能不是来自组件,可能是配置设置。
您需要提供不同的可能性,请他检查或提供确切的解决方案。
提前致谢。
最佳答案
http://<namenode>:50070
检查名称节点和数据节点的运行状况hdfs dfs -put
命令,那么他应该有一个数据上传日志(它将错误转储到stdout,因此他应该在控制台中看到Java堆栈跟踪)。询问他是否看到任何问题hadoop-hdfs-namenode-*.log
,复制到记事本,滚动到末尾并上下颠倒搜索ERROR(区分大小写),为您提供有关他在实际上,总体逻辑实际上取决于前两个答案,因为将文件“加载”到HDFS可能以多种方式完成,进一步对话的逻辑实际上取决于客户的使用方式
关于hadoop - 当导入的数据与原始数据不同时,如何给出不同的解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28038191/