hadoop - 当导入的数据与原始数据不同时，如何给出不同的解决方案？

我是hadoop的新手。这是高级人员要求检查我可以管理Hadoop的能力的方案。

场景:
您需要为从任何来源将数据导入到hdfs的客户端提供支持。您没有计算机，也没有他正在提取的文件，只有您需要通过电话获得支持。
假设他正在导入700个文件，但导入后hdfs仅包含550个文件。其余文件哪里出错了？
您如何提供不同的解决方案，要求他检查并提取HDFS中正确的数据量？客户什么都不知道，意味着他不是开发人员。因此，如果您要提供任何解决方案，则需要简短说明。

他可能会使用来自sqoop，MR， hive ， pig ，hbase的任何组件。请简要介绍各组件的解决方案。
另外，它可能不是来自组件，可能是配置设置。

您需要提供不同的可能性，请他检查或提供确切的解决方案。

提前致谢。

最佳答案

客户端使用了什么命令来提取数据？

客户端使用了什么命令来检查HDFS上的文件数量？

使用HDFS WebUI http://<namenode>:50070检查名称节点和数据节点的运行状况

使用HDFS WebUI检查文件是否确实丢失。从那里他可以轻松浏览FS并查看文件内容，还可以通过将文件夹内容复制到记事本

来计算文件数量

如果客户使用了hdfs dfs -put命令，那么他应该有一个数据上传日志(它将错误转储到stdout，因此他应该在控制台中看到Java堆栈跟踪)。询问他是否看到任何问题

在同一WebUI中，您具有指向namenode日志的链接。要求客户打开文件hadoop-hdfs-namenode-*.log，复制到记事本，滚动到末尾并上下颠倒搜索ERROR(区分大小写)，为您提供有关他在

上看到的错误的信息。

实际上，总体逻辑实际上取决于前两个答案，因为将文件“加载”到HDFS可能以多种方式完成，进一步对话的逻辑实际上取决于客户的使用方式

关于hadoop - 当导入的数据与原始数据不同时，如何给出不同的解决方案？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28038191/

hadoop - 当导入的数据与原始数据不同时，如何给出不同的解决方案？

上一篇：ubuntu - hadoop2.6.0 sudo sbin/start-dfs.sh

下一篇：hadoop - 是否可以使用Google的Dataflow运行Hadoop MR作业？