r - 使用精确匹配和模糊匹配在 R 中连接两个大型数据集

标签 r join inner-join fuzzyjoin

我正在尝试内部连接两个数据集:df1 50,000 个 obs 看起来像这样:

  Name              | Line.1           | Line.2     | Town       | County       | Postcode 
 -------------------|------------------|------------|------------|--------------|---------- 
  ACME Inc          | 63 Long Street   |            | Fakeington | Lincolnshire | PA4 8QU  
  BETA LTD          | 91a              | Main Drove | Cloud City | Something    | BN1 6LD  
  The Giga          | 344 Lorem Street |            | Ipsom      | Dolor        | G2 8LY   
df2 500,000 个 obs 看起来像这样:
  Name              | AddressLine1   | AddressLine2     | AddressLine3 | AddressLine4 | Postcode | RatingValue 
 -------------------|----------------|------------------|--------------|--------------|----------|------------- 
  ACME              |                | 63 Long Street   | Fakeington   | Lincolnshire | PA4 8QU  | 1           
  Random Company    |                | Rose Ave         | Fakeington   |              | AB2 51GL | 5           
  BETA Limited      | Business House | 91a Main Drove   | Something    |              | BN1 6LD  | 3           
  Giga Incorporated |                | 344 Lorem Street | Ipsum        | Dolor        | G2 8LY   | 5           
我想得到类似 df_final 的信息.
  Name              | Postcode | RatingValue 
 -------------------|----------|------------- 
  ACME Inc          | PA4 8QU  | 1           
  BETA LTD          | BN1 6LD  | 3           
  Giga Incorporated | G2 8LY   | 5           
这些是一对一匹配和 df1 中的所有值应该存在于 df2 . Postcode是精确匹配,而地址被分成多行而没有常规模式,所以我认为我最好的办法是匹配 Name .
我试过 fuzzyjoin包裹但我收到了 Error: cannot allocate vector of size 120.6 Gb所以我想我必须使用另一种适用于更大数据集的方法。
关于解决这个问题的最佳方法是什么的任何想法?
df1 <- data.frame(
  stringsAsFactors = FALSE,
              Name = c("ACME Inc", "BETA LTD", "Giga Incorporated"),
            Line.1 = c("63 Long Street", "91a", "344 Lorem Street"),
            Line.2 = c(NA, "Main Drove", NA),
              Town = c("Fakeington", "Cloud City", "Ipsom"),
            County = c("Lincolnshire", "Something", "Dolor"),
          Postcode = c("PA4 8QU", "BN1 6LD", "G2 8LY")
)

df2 <- data.frame(
  stringsAsFactors = FALSE,
              Name = c("ACME", "Random Company","BETA Limited","Giga Incorporated"),
      AddressLine1 = c(NA, NA, "Business House", NA),
      AddressLine2 = c("63 Long Street", "Rose Ave","91a Main Drove","344 Lorem Street"),
      AddressLine3 = c("Fakeington", "Fakeington", "Something", "Ipsum"),
      AddressLine4 = c("Lincolnshire", NA, NA, "Dolor"),
          Postcode = c("PA4 8QU", "AB2 51GL", "BN1 6LD", "G2 8LY"),
       RatingValue = c(1L, 5L, 3L, 5L)
)

最佳答案

也许像下面这样的事情会做这个问题所要求的。它使用包 stringdist ,不是 fuzzyjoin .
一、merge来自 Postcode只是,因为匹配是精确的。然后得到 Name 之间的相似性的。如果它们高于预定阈值,请保留这些行。

thresh <- 0.75

df_final <- merge(df2[c(1, 6:7)], df1[c(1, 6)], by = "Postcode", suffixes = c("",".y"))
i <- apply(df_final[c(2, 4)], 1, function(x) {stringdist::stringsim(x[1], x[2], method = 'jw')}) >= thresh

df_final <- df_final[i, c(2, 1, 3)]

df_final 
#               Name Postcode RatingValue
#1      BETA Limited  BN1 6LD           3
#2 Giga Incorporated   G2 8LY           5
#3              ACME  PA4 8QU           1

关于r - 使用精确匹配和模糊匹配在 R 中连接两个大型数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63197957/

相关文章:

sql - 在表的每一行创建一个分隔字符串时选择项目的类别和子类别时出现问题

MYSQL 使用 Union 组合两个查询

r - 根据条件创建序列计数器

r - 如何在dplyr中以降序排列奇数和以升序排列偶数

sql - SQL 中 RIGHT & LEFT JOIN 与 RIGHT & LEFT OUTER JOIN 的区别

mysql - 加入 rails 中的表;多对多;尝试在实例上调用 join 方法

r - R中的打印与回显

r - 使用 data.table R 在滚动基础(重置和恢复)中提取累积唯一值

mysql 计算包含 LEFT JOIN 的查询中的行数挂起服务器

mysql - 连接两个 MySQL 表的结果