r - Sparklyr:如何将列表列分解为 Spark 表中自己的列?

标签 r apache-spark dplyr tidyr sparklyr

我的问题和here中的问题类似,但我在实现答案时遇到问题,并且无法在该线程中发表评论。

所以,我有一个包含嵌套数据的大 CSV 文件,其中包含由空格分隔的 2 列(假设第一列是 Y,第二列是 X)。 X 列本身也是一个逗号分隔值。

21.66 2.643227,1.2698358,2.6338573,1.8812188,3.8708665,...
35.15 3.422151,-0.59515584,2.4994135,-0.19701914,4.0771823,...
15.22 2.8302398,1.9080592,-0.68780196,3.1878228,4.6600842,...
...

我想使用 sparklyr 将此 CSV 读入 2 个不同的 Spark 表中。

到目前为止,这就是我一直在做的事情:

  1. 使用spark_read_csv将所有CSV内容导入Spark数据表

    df = spark_read_csv(sc, path = "path", name = "simData", delimiter = " ", header = "false", infer_schema = "false")

    结果是一个名为 simData 的 Spark 表有 2 列:C0C1

  2. 使用dplyr选择第一列和第二列,然后将它们分别注册为名为 Y 和 X 的新表

    simY <- df %>% select(C0) %>% sdf_register("simY")

    simX <- df %>% select(C1) %>% sdf_register("simX")

  3. 拆分 simX 中的值使用ft_regex_tokenizer函数,关于 here 中写的答案。

    ft_regex_tokenizer(input_DF, input.col = "COL", output.col = "ResultCols", pattern = '\\###')

但是当我尝试 head它使用 dplyr :

Source:   query [6 x 1]
Database: spark connection master=yarn-client app=sparklyr local=FALSE

        Result
        <list>
1 <list [789]>
2 <list [789]>
3 <list [789]>
4 <list [789]>
5 <list [789]>
6 <list [789]>

我想将其转换为一个新的 Spark 表并将类型转换为 double。有什么办法可以做到这一点吗? 我考虑过collect将数据导入 R (使用 dplyr ),转换为矩阵,然后执行 strsplit对于每一行,但我认为这不是一个解决方案,因为 CSV 大小最多可达 40GB。

编辑:Spark 版本为 1.6.0

最佳答案

假设您的数据如下所示

library(dplyr)
library(sparklyr)

df <- data.frame(text = c("1.0,2.0,3.0", "4.0,5.0,6.0"))
sdf <- copy_to(sc, df, "df", overwrite = TRUE)

并且您已经创建了一个 spark_connection 您可以执行以下操作

n <- 3

# There is no function syntax for array access in Hive
# so we have to build [] expressions
# CAST(... AS double) could be handled in sparklyr / dplyr with as.numeric
exprs <- lapply(
  0:(n - 1), 
  function(i) paste("CAST(bits[", i, "] AS double) AS x", i, sep=""))

sdf %>%
  # Convert to Spark DataFrame
  spark_dataframe() %>% 
  # Use expression with split and explode
  invoke("selectExpr", list("split(text, ',') AS  bits")) %>%
  # Select individual columns
  invoke("selectExpr", exprs) %>%
  # Register table in the metastore ("registerTempTable" in Spark 1.x)
  invoke("createOrReplaceTempView", "exploded_df")

并使用dplyr::tbl来获取sparklyr对象:

tbl(sc, "exploded_df")
Source:   query [2 x 3]
Database: spark connection master=local[8] app=sparklyr local=TRUE

     x0    x1    x2
  <dbl> <dbl> <dbl>
1     1     2     3
2     4     5     6

在最新版本中,您还可以使用sdf_separate_column:

sdf %>% 
  mutate(text=split(text, ",")) %>% 
  sdf_separate_column("text", paste0("x", 0:2))
# Source:   table<sparklyr_tmp_87125f13b89> [?? x 4]
# Database: spark_connection
  text       x0    x1    x2   
  <list>     <chr> <chr> <chr>
1 <list [3]> 1.0   2.0   3.0  
2 <list [3]> 4.0   5.0   6.0  

关于r - Sparklyr:如何将列表列分解为 Spark 表中自己的列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43589762/

相关文章:

Hadoop:两个数据节点,但 UI 显示一个和 Spark:两个工作人员 UI 显示一个

在tidyverse中按组滚动回归?

r - 更改数据帧结构(两个数据帧到一个)

r - 查找列中特定值的最大值?

r - 错误 : Value of SET_STRING_ELT() must be a 'CHARSXP' not a 'character' in dplyr group_by

python - Dataframe Spark 2.2.1 上的可调用列对象

r - 忽略 dplyr 连接中的区分大小写

r - R 中的排队和库存模型

image - 使用 EBImage 缓慢加载 R 图像

python - PySpark 将 'map' 类型的列转换为数据框中的多列