我看到 spark avro 数据源是基于 FileFormat 接口(interface)实现的。
有没有关于如何基于 FileFormat 编写 spark 自定义数据源的文档?到目前为止,我找不到任何东西(除了 spark avro 的源代码)。
谢谢!
最佳答案
下面是一个简单的基于文件的 spark 数据源示例:https://hackernoon.com/extending-our-spark-sql-query-engine-5f4a088de986
下面是几个实现数据源 API 的示例:
* https://github.com/databricks/spark-csv
* https://github.com/databricks/spark-avro
关于apache-spark - 如何编写基于FileFormat的spark自定义数据源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45593492/