sql - 如何在 SQL 数据库上使用 dplyr `distinct()` 函数?

标签 sql r dplyr teradata dbplyr

当我将特定的 dplyr 函数 distinct() 应用于 SQL 数据库中的表时出现以下错误。

tbl(P0_MAU_3N_V, "D_QNO_MTYPE") %>% distinct()
#> Error: <SQL> 'SELECT DISTINCT  TOP 11 * FROM "D_QNO_MTYPE"'
#> nanodbc/nanodbc.cpp:1700: HY222: [Teradata][ODBC Teradata Driver]
#> [Teradata Database](-3419)
#> TOP N Syntax error: Top N option is not supported with DISTINCT option.

如果我检查我得到的查询:

tbl(P0_MAU_3N_V, "D_QNO_MTYPE") %>% distinct() %>% show_query()
#> <SQL>
#> SELECT DISTINCT *
#> FROM "D_QNO_MTYPE"

我猜这是 SQL 语法中的某种禁忌。在 SQL 数据库上使用 dplyr::distinct() 的最佳方式是什么?是否有一种 tidyverse 方法可以做到这一点,或者这应该是某种类型的直接 SQL 查询?


编辑

@akrun 抱歉,我只是不知道如何使用您提供的示例进行复制。我希望这会有所帮助:

DBI::dbGetInfo(P0_MAU_3N_V)
#> $dbname
#> [1] "P0_MAU_3N_V"
#> 
#> $dbms.name
#> [1] "Teradata"
#> 
#> $db.version
#> [1] "15.10.0704  15.10.07.04"
#> 
#> $username
#> [1] "redacted"
#> 
#> $host
#> [1] ""
#> 
#> $port
#> [1] ""
#> 
#> $sourcename
#> [1] ""
#> 
#> $servername
#> [1] "redacted"
#> 
#> $drivername
#> [1] "tdataodbc_sb64.dll"
#> 
#> $odbc.version
#> [1] "03.80.0000"
#> 
#> $driver.version
#> [1] "16.20.00.054"
#> 
#> $odbcdriver.version
#> [1] "03.80"
#> 
#> $supports.transactions
#> [1] TRUE
#> 
#> attr(,"class")
#> [1] "Teradata"    "driver_info" "list" 

最佳答案

TOP N 有很多限制,与 DISTINCT 一起使用就是其中之一。我不确定 dplyr 的语法,但是如果您可以运行一些原始 SQL,如果您尝试使用像这样的子查询来分隔运算符会怎样:

SELECT TOP 11 *
FROM (
  SELECT DISTINCT *
  FROM "D_QNO_MTYPE"
) src

如果您没有太多列,另一种选择是使用 GROUP BY 来获取一组唯一的行:

SELECT col1, col2 ... -- list of columns to apply DISTINCT to
FROM "D_QNO_TYPE"
GROUP BY col1, col2 ... -- same column list in the SELECT
QUALIFY ROW_NUMBER() OVER() <=11 -- Get first 11 rows (i.e. TOP 11)

首先应用GROUP BY,然后应用QUALIFY。如果要指定列的顺序,只需将列列表放在 OVER() 子句中。我不确定您是否可以将 TOPGROUP BY 结合使用,但您也可以尝试一下,看看是否可行。

关于sql - 如何在 SQL 数据库上使用 dplyr `distinct()` 函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59431241/

相关文章:

sql - 减少 VARCHAR 长度时的错误

sql - 根据字符串长度标准删除重复项

r - devtools::build_vignettes 产生 "Error : invalid version specification ' pandoc.exe 1.13.1'

R:将行拆分为多行,然后将列拆分为多列

sql - 在不使用 R 内存的情况下从 dplyr 对象创建新的 SQL 表

r - 根据 R 数据框中的名称对列进行平均

sql - 如何获取给定日期范围内当天至少有一个事件的所有日期?

mysql - 使用 week() 显示周开始日期

r - 图例位置,ggplot,相对于绘图区域

javascript - 在 x = 0 时执行 Math.pow(10,x) 时使用 javascript 更改 R Shiny 错误中的 noUIslider 标签