我多次读取具有相同选项的数据。有没有办法避免重复常见的 DataFrameReader 选项并以某种方式分别初始化它们以便以后在每次读取时使用它们?
metrics_df = spark.read.format("jdbc") \
.option("driver", self.driver) \
.option("url", self.url) \
.option("user", self.username) \
.option("password", self.password) \
.load()
最佳答案
为 dataframereader
定义所有选项即<class 'pyspark.sql.readwriter.DataFrameReader'>
然后添加 dbtable 选项以重用 dataframereader。
Example:
metrics_df_options = spark.read.format("jdbc") \
.option("driver", self.driver) \
.option("url", self.url) \
.option("user", self.username) \
.option("password", self.password)
type(metrics_df_options)
#<class 'pyspark.sql.readwriter.DataFrameReader'>
#configure dbtable and pull data from rdbms table
metrics_df_options.option("dbtable","<table_name>").load().show()
关于python - Pyspark - 如何分别初始化常见的 DataFrameReader 选项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63182143/