r - 如何在 R 中的脚本中可视化数据集的使用

标签 r

这更多是关于如何组织长 R 脚本的问题。我在 R 中有很多很长的脚本。我经常发现自己处于这样一种情况:我导入一个原始数据集,然后我可能会从中创建其他数据集等等,用于分析的不同方面。所以基本上原始数据集被分支以创建其他数据集。使用长脚本可能很难理解不同分支的起源。有没有人有任何技术来处理这个问题,即如何大致了解数据集是如何从另一个派生出来的。也许是某种可视化工具?

最佳答案

DiagrammeR ,可以逐步构建流程图,并在需要时使用 render_graph 进行渲染。 .但是,如果不勤奋,它可能会变得有点笨拙,如下面的一个简单示例所示。

library(DiagrammeR)
# Create an empty graph
graph <- create_graph()

#create simple data frame of individuals of random ages
df<-data.frame(id=1:100,age=rnorm(100,40,5))
head(df)
# Add a node for df, df$id, and df$age
graph <- add_node(graph, node = "df")
graph <- add_node(graph, node = "df$age")
graph <- add_node(graph, node = "df$id")

# Vector of breaks for cut
breaks <- c(0,seq(20,60,by=5),Inf)
# Add a node for breaks
graph <- add_node(graph,node = "breaks")

# Create df.cut data frame of age intervals
df.cut <- data.frame(id = df$id,
                     interval = cut(df$age,breaks = breaks))

# Add nodes for df.cut, data.frame, cut
# Use a different node shape for operations
graph <- add_node(graph, 
                  node = "df.cut")
graph <- add_node(graph, 
                  node = "data.frame", 
                  shape = "square")
graph <- add_node(graph, 
                  node = "cut", 
                  shape = "square")

# Add edges for df$id, df$age
# Use different arrowhead to indicate operation
graph <- add_edges(graph,
                   create_edges(
                     from = c("df","df"),
                     to = c("df$id","df$age"),
                     rel = "to_get",
                     arrowhead = "box")
)

# Add edges for cut 
graph <- add_edges(graph, 
                   from = c("df$age", "breaks", "cut"),
                   to = c("cut", "cut", "df.cut"),
                   rel = c("to_get","to_get", "to_get"))

# Add edges for data.frame
graph <- add_edges(graph, 
                   from = c("df$id", "cut", "data.frame"),
                   to = c("data.frame", "data.frame", "df.cut"),
                   rel = c("to_get","to_get", "to_get"))

render_graph(graph)

DiagrammeR graph of simple data manipulation in R

关于r - 如何在 R 中的脚本中可视化数据集的使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34251385/

相关文章:

r - RGL 中线宽 (lwd) 参数的最大值

r - 频率计数直方图仅在 y 轴上显示整数值?

R 按日期分组,并总结值

r - 如何在 Shiny 中为侧边栏面板添加滚动条?

r - 使用 R 的 org-babel 代码没有输出

r - 为什么排名函数对所有国家都给予同等的排名?

r - 从github安装flipMaxDiff软件包时出错

r - 在多个数据帧上执行相同操作的最有效方法是什么?

r - ggplot2使用运行变量设置geom_text标签

根据映射用对应的字符串替换许多字符串