apache-spark - 如何编写基于FileFormat的spark自定义数据源

标签 apache-spark datasource

我看到 spark avro 数据源是基于 FileFormat 接口(interface)实现的。
有没有关于如何基于 FileFormat 编写 spark 自定义数据源的文档?到目前为止,我找不到任何东西(除了 spark avro 的源代码)。

谢谢!

最佳答案

下面是一个简单的基于文件的 spark 数据源示例:https://hackernoon.com/extending-our-spark-sql-query-engine-5f4a088de986

下面是几个实现数据源 API 的示例:
* https://github.com/databricks/spark-csv
* https://github.com/databricks/spark-avro

关于apache-spark - 如何编写基于FileFormat的spark自定义数据源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45593492/

相关文章:

apache-spark - SaveToCassandra ,是否有写入行的顺序

objective-c - 数据源对象属于哪里? Controller 还是模型?

delphi - 相当于数据源的 'AutoInsert' 属性?

postgresql - TypeORM 找不到\"MyEntity\"的元数据

shell - 在 yarn 客户端错误上运行 spark shell

apache-spark - spark结构化流动态字符串过滤器

java - 在 Spark 中使用 JAVA RDD 添加文本文件的列

grails - 在运行时设置数据源值

java - 没有设置数据源就无法启动 spring boot 应用程序

java - JavaPairDStream 中的最后一批大小