xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce

标签 xml streaming hadoop wikipedia bzip2

我正在使用 Hadoop Map Reduce 对维基百科数据转储(以 bz2 格式压缩)进行研究。由于这些转储太大(5 T),我无法将 xml 数据解压缩到 HDFS 中,只能使用 hadoop 提供的 StreamXmlRecordReader。 Hadoop 确实支持解压缩 bz2 文件,但它会任意拆分页面并将其发送给映射器。因为这是 xml,所以我们需要拆分为标签。有没有办法把hadoop自带的bz2解压和stream xml record reader一起使用?

最佳答案

维基媒体基金会刚刚为 Hadoop Streaming 接口(interface)发布了一个 InputReader,它能够读取 bz2 压缩的完整转储文件并将其发送到您的映射器。发送到映射器的单元不是整个页面,而是两个修订版(因此您实际上可以在两个修订版上运行 diff)。这是初始版本,我相信会有一些错误,但请试一试并帮助我们测试它。

此 InputReader 需要 Hadoop 0.21,因为 Hadoop 0.21 具有对 bz2 文件的流式支持。源代码位于:https://github.com/whym/wikihadoop

关于xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6726357/

相关文章:

java - 需要了解Hibernate配置的transaction.factory_class

音频托管平台/服务器端软件

javascript - 对网络上麦克风的影响

c++ - 将像素流式传输到 OpenGL 的现代方法?

hadoop - Hive上小文件的性能问题

c# - 如何在网页中显示和编辑 XML?

javascript - 哪些本地数据库可用于 Javascript?

swift - 为什么我不能使用 Swift 4 加载 Collada 文件?

java - 在 Java 程序中从 Unix 路径读取一个 hadoop 配置文件

java - 在 mapreduce 程序中找不到类错误