python - 如何将 PySpark Dataframe 转换为 R 可以在 DataBricks 中识别的内容?

标签 python r azure pyspark databricks

我已经使用 Python 访问了我的 Azure 数据库,现在我想回收一些 R 代码来继续此分析。无论如何,我可以在两种语言之间交换吗?例如,在 python 中导入数据帧并使用 R 代码使用该数据帧。

数据导入到 PySpark dtaframe

venue_list_raw = spark.read.option("inferSchema", "true").option("header", "true").csv("path.csv")

继续使用 R 工作,例如

venue_list <- venue_list_raw %>% mutate(postcode_short = substr(postcode,1,nchar(str_extract(postcode,"(\\w+)"))+2))

我已经尝试过:

%r
library(SparkR)
library(dbplyr)
# collect the data from Spark to local
# convert Spark DataFrame into R data frame
mailing_list_raw_r <- collect(mailing_list_raw)
display(mailing_list_raw_r)

最佳答案

如果您在数据 block 中执行上述操作,则可以通过为数据框创建临时 View 来完成。然后在 R 中访问该 View ,如下所示。

enter image description here

df.createOrReplaceTempView("temp1")

代码:

df2 <- tableToDF("view_name")
display(df2)

enter image description here

或者也像下面这样。

sc <- spark_connect(method = "databricks")
r_df <- collect(spark_read_table(
  sc   = sc,
  name = "temp1"
))
display(r_df)

enter image description here

关于python - 如何将 PySpark Dataframe 转换为 R 可以在 DataBricks 中识别的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75521674/

相关文章:

asp.net - ASP.Net 4.0中的DiskCacheProvider真的存在吗?

python - Django:检查模型字段是否得到回答

python - python cmd 模块中的持久历史记录

r - R中矩阵的索引值?

function - 使用 MSI 的 Azure 函数 - 请求 token 时出错

sql - Azure SQL : Modify table data via UI instead of writing SQL query

python - 如何使用任何语言 C++、Python、Java、C 在两个客户端之间传递套接字对象

python - 如何将不同的图片正确插入到单个文件中

r - 将文本值放置在桑基图右侧

r - 如何将表从 R 导出到 Latex 并包含维度名称?