r - 使用 Sparklyr 将字符串转换为 R 中的逻辑字符串

标签 r apache-spark sparklyr

我在分布式文件系统的许多 .csv 文件中存储了 1 亿行。我正在使用 Spark_read_csv() 毫无问题地加载数据。我的许多列都存储为字符逻辑值:"true" , "false" , "<na>" 。我无法控制这个。

当我尝试将值转换为逻辑值时,"<na>"值转换为 FALSE"false"值(value)观。关于如何克服这个问题有什么想法吗?

test_lgl <- 
  tibble(a = c(TRUE, TRUE, NA, NA, FALSE, FALSE),
         b = c("true", "true", "na", "<na>", "false", "f"))

test_lgl %>% mutate_if(is.character, as.logical)

# this works
   a     b
  <lgl> <lgl>
1  TRUE  TRUE
2  TRUE  TRUE
3    NA    NA
4    NA    NA
5 FALSE FALSE
6 FALSE    NA

sc <- spark_connect(master = "local")
spark_lgl <- copy_to(sc, test_lgl)

spark_lgl %>% mutate_if(is.character, as.logical)

# this does not
      a     b
  <lgl> <lgl>
1  TRUE  TRUE
2  TRUE  TRUE
3 FALSE FALSE
4 FALSE FALSE
5 FALSE FALSE
6 FALSE FALSE

最佳答案

When I attempt to convert the values to logical, the "<na>" values are converted to FALSE

令人惊讶的是没有。如果您进一步检查结果:

spark_lgl_boolean <- spark_lgl %>% mutate_if(is.character, as.logical)
spark_lgl_boolean %>% mutate_all(is.na)

Applying predicate on the first 100 rows
# Source:   lazy query [?? x 2]
# Database: spark_connection
      a     b
  <lgl> <lgl>
1 FALSE FALSE
2 FALSE FALSE
3  TRUE  TRUE
4  TRUE  TRUE
5 FALSE FALSE
6 FALSE FALSE

这与 NA count 一致:

spark_lgl_boolean %>%
  mutate_all(is.na) %>% 
  mutate_all(as.numeric) %>%
  summarize_all(sum)
# Source:   lazy query [?? x 2]
# Database: spark_connection
      a     b
  <dbl> <dbl>
1     2     2

Spark execution plan :

spark_lgl %>% mutate_if(is.character, as.logical) %>% optimizedPlan
Applying predicate on the first 100 rows
<jobj[1074]>
  org.apache.spark.sql.catalyst.plans.logical.Project
  Project [a#10, cast(b#11 as boolean) AS b#2037]
+- InMemoryRelation [a#10, b#11], true, 10000, StorageLevel(disk, memory, deserialized, 1 replicas), `test_lgl`
      +- *FileScan csv [a#10,b#11] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/tmp/..., PartitionFilters: [], PushedFilters: [], ReadSchema: struct<a:boolean,b:string>

以及 StringType 的 Spark 转换逻辑-> BooleanType其中:

  • 字符串 TRUE/T (不区分大小写)和 1转换为true字面意思。
  • 字符串 FALSE/F (不区分大小写)和 0转换为false字面意思。
  • 上面不匹配的字符串将转换为 NULL (〜NA)。
scala> Seq("tRUE", "FALSE", "f", "<na>", "NA", "1", "0").toDF("x").select($"x".cast("boolean")).show
+-----+
|    x|
+-----+
| true|
|false|
|false|
| null|
| null|
| true|
|false|
+-----+

问题似乎是由sparklyr专门引入的转换。请参阅Improve Serialization在 GitHub 上(感谢 kevinykuo 指出了这一点)。

但是,如果您坚持基于 Spark 的逻辑,而不将数据提取到 R,那么事情应该会正常工作(例如,如果您将数据写入文件)。

I'm using spark_read_csv() to load the data

在这种情况下,您可以查看 nullValuenanValue options CSV reader的。例如:

spark_read_csv(..., options=list(nullValue="<na>"))

spark_read_csv(..., options=list(nanValue="<na>"))

但请记住,NULL 的 Spark 语义/NaN与 R NA 不同/NaN .

关于r - 使用 Sparklyr 将字符串转换为 R 中的逻辑字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47539670/

相关文章:

regex - 如何在 R 中使用 sub 替换 '(' 、 ')' ?

scala - 折叠 Spark 数据帧

使用 Sparklyr 包时,R 未检测到安装的最新 Java 版本 (1.8)

r - Sparklyr 拆分字符串(到字符串)

具有高级条件的 R 开关/外壳

r - 退出当前浏览器(返回一级)

R:将一个因子或字符串变量分成两个新变量

apache-spark - 用于创建 Elasticsearch 索引的组合键

java - 在集群上运行 Apache Spark 应用程序时是否可以缓存应用程序 jar?

r - SparklyR 从 Spark 上下文中删除表