machine-learning - 给定 2 个多元数据集,识别代表同一实体的记录,这些记录略有不同

标签 machine-learning duplicates fuzzy-comparison

我们以有 2 个数据源为例,数据大小分别为“m”和“n”。两个数据集都是具有相同架构但数据不同的 SQL 表。我们的目标是“标记”足够相似以考虑“相同”的模糊匹配(数据集之间)。

CREATE TABLE player(
    id Integer,
    fname VARCHAR(64),
    lname VARCHAR(64),
    birth_dt datetime,
    weight Integer
)

虽然大多数组合 (m*n) 不会匹配,但我们希望标记“相似”匹配,如下所示:

{"fname": "John", "lname": "Smith", "birth_dt": "6/6/91", "weight": 220}
{"fname": "Jack", "lname": "Smith", "birth_dt": "6/6/91", "weight": 210}

是否有任何工具(开源或非开源)可以很好地识别和标记这些“匹配项”?

最佳答案

这是“record linkage”的问题,该关键字将帮助您找到有关该问题的大量文献。

开源Python库dedupe ,提供了一种综合方法。

关于machine-learning - 给定 2 个多元数据集,识别代表同一实体的记录,这些记录略有不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40005758/

相关文章:

python - 我可以使用回归模型进行样本外预测吗?

machine-learning - 将特征向量矩阵简化为单个有意义的向量

python-3.x - 提取每个簇的顶部单词

optimization - 没有重复顶点的OpenGL纹理映射

excel - 删除重复项并保留最上面的值

elasticsearch - Apache Nifi-联合搜索

algorithm - 我可以使用什么算法来生成简单的人类可读的容错字符串?

python - Levenshtein 距离与字符加扰?

comparison - 这个比较 float 的函数有什么问题吗?

java - 如何使用 WordNet 或与 wordnet 相关的实现基于类别的文本标记?