python - Pyspark - 如何分别初始化常见的 DataFrameReader 选项?

标签 python python-3.x dataframe apache-spark pyspark

我多次读取具有相同选项的数据。有没有办法避免重复常见的 DataFrameReader 选项并以某种方式分别初始化它们以便以后在每次读取时使用它们?

    metrics_df = spark.read.format("jdbc") \
        .option("driver", self.driver) \
        .option("url", self.url) \
        .option("user", self.username) \
        .option("password", self.password) \
        .load()

最佳答案

dataframereader 定义所有选项<class 'pyspark.sql.readwriter.DataFrameReader'>然后添加 dbtable 选项以重用 dataframereader。

Example:

metrics_df_options = spark.read.format("jdbc") \
        .option("driver", self.driver) \
        .option("url", self.url) \
        .option("user", self.username) \
        .option("password", self.password)

type(metrics_df_options)
#<class 'pyspark.sql.readwriter.DataFrameReader'>

#configure dbtable and pull data from rdbms table
metrics_df_options.option("dbtable","<table_name>").load().show()

关于python - Pyspark - 如何分别初始化常见的 DataFrameReader 选项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63182143/

相关文章:

python - 在 Opencv python 中使用 MSER 从图像中提取文本

python - NavigationLayout Kivy err0r

python - 具有一组常量属性的 Init 类实例,这些实例被初始化一次

python - 为什么不替换新数据框中的列?

python - 如何在 Excel 中用 "\n"字符串替换换行符

python - 更改 pandas 数据框中的日期格式

python - 将句子另存为服务器文件名

python - PyPI 可以直接从 GitHub 提供包吗?

python - 生成所有 Euler Bricks

python - 如何使用 apply 来实现这个功能