scala - 在 Spark 中处理 (OSM) PBF 文件

标签 scala apache-spark amazon-emr osm.pbf

OSM 数据以 PBF 格式提供。有专门的库(例如 https://github.com/plasmap/geow 用于解析此数据)。

我想将此数据存储在 S3 上并将数据解析为 RDD 作为 EMR 作业的一部分。

实现这一目标的直接方法是什么?我可以将文件提取到主节点并在本地处理吗?如果是这样,我会创建一个空的 RDD 并在从输入文件解析流事件时添加到它吗?

最佳答案

一种解决方案是跳过 PBF。一种 Spark 友好的表示是 Parquet。在 this blog post它展示了如何将 PBF 转换为 Parquet 以及如何在 Spark 中加载数据。

关于scala - 在 Spark 中处理 (OSM) PBF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40753958/

相关文章:

scala - 如何将数据帧转换为 JSON 并使用 key 写入 kafka 主题

javascript - JavaScript 中的 Scala `toMap`

hadoop - Spark动态资源分配和排队的应用程序

scala - Apache Spark RDD 中每个唯一键的总和值

python - 您如何使用 boto3(或其他方式)在 emr 上自动化 pyspark 作业?

hadoop - Impala 2.2 avro 选择 * 查询不工作

scala - 如何将变量转换为从 Scala 中的 TypeCast 获得的特定运行时类型

scala - 为什么会发生这种隐含的歧义行为?

apache-spark - Pyspark不显示配置单元数据库

python - 检查数据框是否包含任何空值