python - Pyspark - 如何分别初始化常见的 DataFrameReader 选项?

标签 python python-3.x dataframe apache-spark pyspark

我多次读取具有相同选项的数据。有没有办法避免重复常见的 DataFrameReader 选项并以某种方式分别初始化它们以便以后在每次读取时使用它们?

    metrics_df = spark.read.format("jdbc") \
        .option("driver", self.driver) \
        .option("url", self.url) \
        .option("user", self.username) \
        .option("password", self.password) \
        .load()

最佳答案

dataframereader 定义所有选项<class 'pyspark.sql.readwriter.DataFrameReader'>然后添加 dbtable 选项以重用 dataframereader。

Example:

metrics_df_options = spark.read.format("jdbc") \
        .option("driver", self.driver) \
        .option("url", self.url) \
        .option("user", self.username) \
        .option("password", self.password)

type(metrics_df_options)
#<class 'pyspark.sql.readwriter.DataFrameReader'>

#configure dbtable and pull data from rdbms table
metrics_df_options.option("dbtable","<table_name>").load().show()

关于python - Pyspark - 如何分别初始化常见的 DataFrameReader 选项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63182143/

相关文章:

python - Coverage.py 无法发现子目录中没有 init.py 文件的测试

python - SSH 权限被拒绝 : using paramiko module inside my flask app and deployed same using mod_wsgi(Apache) mode

python - 如何为参数编写自定义解析器

python - 如何从 pandas 的字符串列中删除 https 链接

python - 根据列列表转置数据框

r - 如何在 R 中使用 Dataframe 创建所需的矩阵

python - Python Pandas 是否有办法指定一个列来计算值组合的每次出现?

python - 在线程中使用 python 在 LINUX 中设置环境变量

python - 在 python 3 中使用带逗号的打印

python - 为什么 getter/setter 方法必须与原始属性的名称相同?