OSM 数据以 PBF 格式提供。有专门的库(例如 https://github.com/plasmap/geow 用于解析此数据)。
我想将此数据存储在 S3 上并将数据解析为 RDD 作为 EMR 作业的一部分。
实现这一目标的直接方法是什么?我可以将文件提取到主节点并在本地处理吗?如果是这样,我会创建一个空的 RDD 并在从输入文件解析流事件时添加到它吗?
最佳答案
一种解决方案是跳过 PBF。一种 Spark 友好的表示是 Parquet。在 this blog post它展示了如何将 PBF 转换为 Parquet 以及如何在 Spark 中加载数据。
关于scala - 在 Spark 中处理 (OSM) PBF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40753958/