我有兴趣在 HTML 解析任务上试用 Google Cloud Dataproc。我们目前在谷歌存储中有很多(200M+)小的 HTML 文件。我们希望能够将所有这些文件提取到 Hadoop(MapReduce 或 Spark)中进行处理。
但是,我的理解是 Dataproc 在列出和读取大量小文件时性能会很差,而且 Hadoop 通常也是如此。所以我的问题是,我应该如何将大量小文件打包成更大的文件,以便能够高效地列出和读取?
我考虑过像 TAR/ZIP 这样的标准东西,但我的理解是这些东西是不可分割的,因此并发性是有限的。
是否有其他推荐的格式用于此类内容?我考虑过使用 avro,并且只是将 HTML 存储为 avro 记录中的字节字段,但我认为 avro 并不真正适用于这种用例。
最佳答案
您可以使用 Hadoop SequenceFile按照建议解决此问题here .
关于hadoop - 如何在 Google Cloud Storage 中存储大量小的 HTML 文件以优化 Dataproc?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53857631/