validation - 加载到Hadoop MR之前的文件验证

标签 validation hadoop mapreduce bzip2

我有一个输入bz2文件的文件夹,其中一些可能已损坏,我想在运行MR作业之前删除所有损坏/无效的bz2文件。有什么好方法吗?

最佳答案

使用bzip2 -t测试bzip文件是否已损坏。如果它已损坏,我认为您可以看到类似的内容。

bzip2: test1.txt: bad magic number (file not created by bzip2)
bzip2: 2: bad magic number (file not created by bzip2)

You can use the `bzip2recover' program to attempt to recover
data from undamaged sections of corrupted files.

因此,如果文件位于本地文件系统中,则应使用基于上述要点的一些Shell脚本。如果文件已经在HDFS上,则将Hadoop streaming与mapper一起用作脚本来输出损坏的文件,并且不使用reducer,或者用reducer删除或后期处理这些文件。

关于validation - 加载到Hadoop MR之前的文件验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19551566/

相关文章:

json - java.lang.NoSuchFieldError : USE_DEFAULTS thrown while validating json schema through json schema validator

Excel表格默认值和没有VBA的数据验证

iOS 最有效的文本匹配方式

java - 在Ubuntu 16.04中使用JAVA中的MapReduce在文本文件中搜索给定单词

python - STDIN 或文件作为 Hadoop 环境中的映射器输入?

c# - 如何在 MVC Web API 发布方法中将 ModelState 错误返回给 Kendo 网格?

hadoop - pig : Get first occurrence of variable in a group (while aggregating other variables)?

hadoop - 与配置单元连接时出错,连接到 fiware 的 cosmos 服务器

hadoop - 线程 “main” java.lang.NoClassDefFoundError中的异常:org/apache/hadoop/util/RunJar

java - 将参数传递给hadoop jar调用中的log4j.properties