algorithm - 从封闭频繁项集生成计数

标签 algorithm data-mining

我正在阅读注释,似乎是这样说的:给定所有封闭频繁项集及其支持度的集合,可以获得任何频繁项集的支持度。

如果没有更大的项集适本地包含它并且具有 相同的支持计数。

试图证明这一点,但无法解决。

这里有一些关于关联规则挖掘的定义的链接:

Association rule mining

最佳答案

封闭项集 X 是不包含在具有相同支持度的另一个项集中的项集。

所有包含在 X 中并具有相同支持度的项集 Y1、Y2、Y3 .. YN 被称为在相同的等价类中。它们不是封闭项集,因为它们包含在具有相同支持度 (X) 的更大项集中。

现在假设您拥有所有频繁闭项集 C 的集合,并且您想知道项集 F 的支持度。

你需要做的很简单。您需要将 F 与所有频繁闭项集进行比较。你必须找到最小的闭项集 W 使得 F 包含在 W 中。那么 F 的支持就是 W 的支持。

如果您想了解有关闭项集的更多详细信息,我建议阅读 Pasquier 的论文:

http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=7956B5A50ED076203227367503FA7958?doi=10.1.1.37.1102&rep=rep1&type=pdf

如果你想要挖掘封闭项集的一些算法源码,你可以查看我的Java项目:

http://www.philippe-fournier-viger.com/spmf/

它提供 AprioriClose 和 DCI_Closed。

关于algorithm - 从封闭频繁项集生成计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6122799/

相关文章:

image - 连接组件标记算法在某些情况下会失败

iphone - 敌人和斜坡

algorithm - 计算数组的相邻幂集

algorithm - 如何证明 Floyd 循环检测算法的第一部分?

java - 文本文件的信息增益计算?

algorithm - 今天发生次数最多的 N 个事件

python - python 中的开源数据挖掘/文本分析工具

image-processing - 分类和数据挖掘。不同之处?

pandas - 类型错误 : unhashable type: 'numpy.ndarray' - How to get data from data frame by querying radius from ball tree?

machine-learning - 连续数据和分类数据的回归