python - Pyspark - 如何分别初始化常见的 DataFrameReader 选项？

标签 python python-3.x dataframe apache-spark pyspark

我多次读取具有相同选项的数据。有没有办法避免重复常见的 DataFrameReader 选项并以某种方式分别初始化它们以便以后在每次读取时使用它们？

    metrics_df = spark.read.format("jdbc") \
        .option("driver", self.driver) \
        .option("url", self.url) \
        .option("user", self.username) \
        .option("password", self.password) \
        .load()

最佳答案

为 dataframereader 定义所有选项即<class 'pyspark.sql.readwriter.DataFrameReader'>然后添加 dbtable 选项以重用 dataframereader。

Example:

metrics_df_options = spark.read.format("jdbc") \
        .option("driver", self.driver) \
        .option("url", self.url) \
        .option("user", self.username) \
        .option("password", self.password)

type(metrics_df_options)
#<class 'pyspark.sql.readwriter.DataFrameReader'>

#configure dbtable and pull data from rdbms table
metrics_df_options.option("dbtable","<table_name>").load().show()

关于python - Pyspark - 如何分别初始化常见的 DataFrameReader 选项？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63182143/

上一篇：python - 如何重命名文件以包含其所在子文件夹的名称？

下一篇：.net - 为什么 ASP.NET Core Web 应用程序中有 Main() 方法(入口方法)？这种方法背后的原因是什么？

python - NavigationLayout Kivy err0r

python - 具有一组常量属性的 Init 类实例，这些实例被初始化一次

python - 为什么不替换新数据框中的列？

python - 如何在 Excel 中用 "\n"字符串替换换行符

python - 更改 pandas 数据框中的日期格式

python - 将句子另存为服务器文件名

python - PyPI 可以直接从 GitHub 提供包吗？

python - 生成所有 Euler Bricks

python - 如何使用 apply 来实现这个功能