r - 如何在匹配 R 中的其他列时将特定值从一个数据列复制到另一个数据列?

标签 r dataframe data.table posixct

我搜索了很多地方(stackoverflow、r-blogger 等),但还没有找到在 R 中执行此操作的好选择。希望有人有一些想法。

我有一组环境采样数据。数据包括各种字段(访问日期、区域、位置、样本介质、样本成分、结果等)。

这是相关字段的子集。这是我开始的地方......

visit_date   region    location     media      component     result
1990-08-20   LAKE      555723       water       Mg            *Nondetect
1999-07-01   HILL      432422       water       Ca            3.2
2010-09-12   LAKE      555723       water       pH            6.8
2010-09-12   LAKE      555723       water       Mg            2.1
2010-09-12   HILL      432423       water       pH            7.2
2010-09-12   HILL      432423       water       N             0.8
2010-09-12   HILL      432423       water       NH4          112

我希望达到的是这样的表/数据框:

visit_date   region    location     media      component     result        pH
1990-08-20   LAKE      555723       water       Mg            *Nondetect  *Not recorded
1999-07-01   HILL      432422       water       Ca            3.2         *Not recorded
2010-09-12   LAKE      555723       water       pH            6.8         6.8
2010-09-12   LAKE      555723       water       Mg            2.1         6.8
2010-09-12   HILL      432423       water       pH            7.2         7.2
2010-09-12   HILL      432423       water       N             0.8         7.2
2010-09-12   HILL      432423       water       NH4          112          7.2

我尝试在这里使用这个方法—— R finding rows of a data frame where certain columns match those of another ——可惜没有得到我想要的结果。相反,pH 列是我预先填充的值 -999NA,而不是该特定访问日期的 pH 值(如果已收集)。由于结果数据集大约有 50 万条记录,因此我使用 unique(tResult$pH) 来确定 pH 列的值。

这是一次尝试。 res 是原始结果数据框,component 是 pH 结果子集(来自主结果表的 pH 样本结果)。

keys <- c("region", "location", "visit_date", "media")

tResults <- data.table(res, key=keys)
tComponent <- data.table(component, key=keys)

tResults[tComponent, pH>0]

我曾尝试在原始数据框架上使用matchmergewithin,但均未成功。从那时起,我为组件(本例中的 pH)生成了一个子集,我将结果列复制到一个新的“pH”列,认为我可以匹配键并在主要结果中更新一个新的“pH”列设置。

由于并非所有结果值都是数字(具有 *Not recorded 之类的值),我尝试使用 -888 之类的数字或其他可以替代的值,因此我可以强制至少结果和 pH 列是数字的。除了是 POSIXct 值的日期之外,其余列都是 character 列。原始数据框是使用 StringsAsFactors=FALSE 创建的。

一旦我能做到这一点,我就能够为其他组件生成类似的列,这些列可用于填充和计算给定样本的其他值。至少这是我的目标。

所以我被这个难住了。在我看来这应该很容易,但我肯定没有看到它!

我们当然欢迎并感谢您的帮助和想法!

最佳答案

#df1 is your first data set and is dataframe
df1$phtem<-with(df1,ifelse(component=="pH",result,NA))

library(data.table)
library(zoo) # locf function

setDT(df1)[,pH:=na.locf(phtem,na.rm = FALSE)]
    visit_date region location media component     result phtem  pH
1: 1990-08-20   LAKE   555723 water        Mg *Nondetect    NA  NA
2: 1999-07-01   HILL   432422 water        Ca        3.2    NA  NA
3: 2010-09-12   LAKE   555723 water        pH        6.8   6.8 6.8
4: 2010-09-12   LAKE   555723 water        Mg        2.1    NA 6.8
5: 2010-09-12   HILL   432423 water        pH        7.2   7.2 7.2
6: 2010-09-12   HILL   432423 water         N        0.8    NA 7.2
7: 2010-09-12   HILL   432423 water       NH4        112    NA 7.2

# 如果不需要,可以删除 phtem。

编辑:

library(data.table)
setDT(df1)[,pH:=result[component=="pH"],by="region,location,visit_date,media"]
df1

   visit_date region location media component     result  pH
1: 1990-08-20   LAKE   555723 water        Mg *Nondetect  NA
2: 1999-07-01   HILL   432422 water        Ca        3.2  NA
3: 2010-09-12   LAKE   555723 water        pH        6.8 6.8
4: 2010-09-12   LAKE   555723 water        Mg        2.1 6.8
5: 2010-09-12   HILL   432423 water        pH        7.2 7.2
6: 2010-09-12   HILL   432423 water         N        0.8 7.2
7: 2010-09-12   HILL   432423 water       NH4        112 7.2

关于r - 如何在匹配 R 中的其他列时将特定值从一个数据列复制到另一个数据列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29000289/

相关文章:

r - acos(1)返回NaN的某些值,而不是其他值

R latex2exp TeX() 希腊字母显示错误

r - 使用 R 下载压缩数据文件、提取和导入数据

python - 根据多个条件乘以 pandas 列

r - 快速评估损坏的 Affymetrix CEL 文件

python - 将两列中的数字组合起来创建一个数组

python - 在 Python 中合并 Pandas DataFrame

r - 什么时候以及如何在data.table中使用as.name()vs.get()(例如在循环列中)?

r - 根据多列上的条件创建新列

r - 将集合操作从 R 的数据帧移植到数据表 : How to identify duplicated rows?