我什至不确定如何为此制定搜索。
在我的 MySQL 数据中,
SELECT "Anaïs"= "Anais"
产生“1”。该表采用 utf8mb4 编码,具有 general_ci 排序规则。 (而且我几乎不知道其中任何一个的实际含义。)所以在我的数据库中,这两个字符串是等价的。
但我将该数据提取到 R 脚本中,并使用 dplyr join 将其匹配到不同的表/数据框。在 R 中:
"Anaïs"== "Anais"
产生“假”。
此外,MySQL 不区分大小写,但在 R(DBI??)中,连接区分大小写。 (我的原始数据中有一堆拼写错误,其中的东西不小心没有大写,例如 Depaul 和 DePaul。)
解决此问题的最佳方法是什么?
谢谢。
最佳答案
从 stringi
stri_trans_general
将拉丁文转换为 ASCII
library(stringi)
stri_trans_general('Anaïs','Latin-ASCII')=='Anais'
[1] TRUE
对于上层,使用toupper
关于mysql - dplyr 加入带有变音符号的 Mysql 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50337209/