r - 如何创建一个在 data.frame 中运行良好的新类型?

标签 r dataframe types tibble r6

我想有几种方法可以做到这一点。因此,这个问题的答案 如果没有意见,可能是主观的。所以我会尽量缩小问题的范围,并且 向您详细介绍我已经完成的工作。

上下文

我正在使用 R6 包并创建了一个 IntervalNumeric R6Class 有两个字段 lower_boundupper_bound:

require(R6)
NumericInterval <-
  R6Class(
        "NumericInterval",
        public = list(
          lower_bound = NA,
          upper_bound = NA,
          initialize = function(low, up) {
            self$lower_bound <- low
            self$upper_bound <- up
          },
          as_character = function() {
            paste0("[", self$lower_bound, ", ",
                        self$upper_bound, "]")}))

我还使用 S3 通用方法系统来获取 as.characterprint NumericInterval 类型:

as.character.NumericInterval <- function(x, ...) {
  x$as_character()}
print.NumericInterval <- function(x, ...) {
  x$as_character()}

现在我可以这样做了(和 print 一样):

> as.character(NumericInterval$new(0, pi))

[1] "[0, 3.14159265358979]"

问题:

现在需要做什么才能将这种新类型用作 data.frame 列类型?

例如我希望能够做到这一点:

(df <- data.frame(
   X = c("I1", "I2", "I3"),
   Y = c(NumericInterval$new(0,1),
         NumericInterval$new(1,2),
         NumericInterval$new(2,3)))

并得到:

   X      Y
1 I1 [0, 1]
2 I2 [1, 2]
3 I3 [2, 3]

但我得到:

Error in as.data.frame.default(x[[i]], optional = TRUE) :
  cannot coerce class ‘c("NumericInterval", "R6")’ to a data.frame

当然,我还希望能够访问对象并执行以下操作:

df[2, 2]$lower_bound <- 0

tibble似乎是一个解决方案

(df <- tibble(
X = c("I1", "I2", "I3"),
Y = c(NumericInterval$new(0,1),
NumericInterval$new(1,2),
NumericInterval$new(2,3))))

产生:

# A tibble: 3 x 2
  X     Y
  <chr> <list>
1 I1    <NmrcIntr>
2 I2    <NmrcIntr>
3 I3    <NmrcIntr>

并且每个 NumericInterval 都按预期放置,例如:

> require(dplyr)
> df[2,1][[1]] %>% pull


[[1]]
<NumericInterval>
  Public:
    as_character: function ()
    clone: function (deep = FALSE)
    initialize: function (low, up)
    lower_bound: 0
    upper_bound: 1

但是tibble的输出和获取对象的方式不是我想要的 期待。

最佳答案

在将 R6 对象强制转换为数据框之前,您需要做出一些设计决策。也许最重要的是您希望在哪个级别进行矢量化。

在您的示例中,您将“原子”NumericInterval 放入向量中,这当然有一些优点,但主要缺点是当您尝试在NumericInterval 的集合,R 将对象视为环境(这就是 R6 对象)。这意味着您不会得到您正在寻找的那种行为,因为您希望 R 以不同于通常处理环境向量的方式处理这些环境向量。换句话说,要处理这种工作方式,您需要定义另一个类,其中包含管理向量操作的方法。这是可能的,但看起来复杂、困惑且效率低下。

在我看来,最好将矢量化保持在单个 R6 对象中 - 也就是说,在单个 R6 中具有 lower_boundsupper_bounds 的向量目的。 R6 类可以用来处理打印、格式化和子集化,并且可以充当数据框本身的整个列。

要做到这一切,您首先需要定义泛型函数的一些 R6 特化:

`[.R6` <- function(x, ...) x$`[`(...) 
`[<-.R6` <- function(x, ...) x$`[<-`(...)
length.R6 <- function(x) x$length()
format.R6 <- function(x) x$format()
as.data.frame.R6 <- function(x, ...) x$as.data.frame()

将它们作为 .R6 而不是 NumericInterval 允许您在多个不同的类中使用它们。

现在我们可以用我们需要的特化来定义我们的类:

NumericInterval <- R6Class("NumericInterval",
        public = list(
          lower_bound = NA,
          upper_bound = NA,
          initialize = function(low, up) {
            self$lower_bound <- low
            self$upper_bound <- up
          },
          `[` = function(n){
            return(NumericInterval$new(self$lower_bound[n], self$upper_bound[n]))
          },
          `[<-` = function(n, m){
            self$lower_bound[n] <- m[1]
            self$upper_bound[n] <- m[2]
            invisible(self)
          },
          length = function() length(self$lower_bound), 
          as.data.frame = function(...) {
            structure(
              list(interval = structure(a)), 
              class = "data.frame", 
              row.names = seq_along(self$lower_bound))
          },
          as_character = function() {
            paste0("[", self$lower_bound, ", ",
                        self$upper_bound, "]")},
          format = function(...) self$as_character(),
          print = function() {
            print(self$as_character(), quote = FALSE)
            invisible(self)}))

这会产生以下行为:

a <- NumericInterval$new(1:3, 4:6)
a
#> [1] [1, 4] [2, 5] [3, 6]

as.data.frame(a)
#>   interval
#> 1   [1, 4]
#> 2   [2, 5]
#> 3   [3, 6]

df <- data.frame(id = LETTERS[1:3], interval = a)
df
#>   id interval
#> 1  A   [1, 4]
#> 2  B   [2, 5]
#> 3  C   [3, 6]

df[1,]
#>   id interval
#> 1  A   [1, 4]

df$interval[1]$lower_bound
#> [1] 1

这当然不是生产级代码。特别是,您需要包括错误处理以确保上限和下限的长度相同,并且都是数字。

关于r - 如何创建一个在 data.frame 中运行良好的新类型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60598441/

相关文章:

r - 如何从一组 N 个对象中选择 n 个对象,最大化它们之间的成对距离之和

python - Python 与 R 中的二项式检验

python - 如何删除 python pandas read_csv 中没有标题的列

r - 使用 ggplot2 对 R 中的函数进行曲线拟合

python - 将列表作为行和列索引添加到 pandas 数据框

r - 如何将数据帧拆分为数据帧列表(同时删除分组列)

c - 一个未初始化的变量可能有一个未定义的值,但那个未定义的值是否具有相同的数据类型?

types - 在调用函数和回调之间对齐多态变体类型

javascript - 算术运算符如何计算 JavaScript 中的无穷大值?

r - model.matrix() 与 na.action=NULL?