scala - 在 Spark 中处理 (OSM) PBF 文件

标签 scala apache-spark amazon-emr osm.pbf

OSM 数据以 PBF 格式提供。有专门的库(例如 https://github.com/plasmap/geow 用于解析此数据)。

我想将此数据存储在 S3 上并将数据解析为 RDD 作为 EMR 作业的一部分。

实现这一目标的直接方法是什么？我可以将文件提取到主节点并在本地处理吗？如果是这样，我会创建一个空的 RDD 并在从输入文件解析流事件时添加到它吗？

最佳答案

一种解决方案是跳过 PBF。一种 Spark 友好的表示是 Parquet。在 this blog post它展示了如何将 PBF 转换为 Parquet 以及如何在 Spark 中加载数据。

关于scala - 在 Spark 中处理 (OSM) PBF 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40753958/

上一篇：amazon-web-services - 我如何在标签中的 Amazon EC2 过滤器中使用正则表达式

下一篇：r - 如何自动查找多个类别的变异系数？

javascript - JavaScript 中的 Scala `toMap`

hadoop - Spark动态资源分配和排队的应用程序

scala - Apache Spark RDD 中每个唯一键的总和值

python - 您如何使用 boto3(或其他方式)在 emr 上自动化 pyspark 作业？

hadoop - Impala 2.2 avro 选择 * 查询不工作

scala - 如何将变量转换为从 Scala 中的 TypeCast 获得的特定运行时类型

scala - 为什么会发生这种隐含的歧义行为？

apache-spark - Pyspark不显示配置单元数据库

python - 检查数据框是否包含任何空值