项目集:项的集合,记为I。牛奶,面包,苹果,etc事务:事务T是I中的一组项目的集合,每个事务都有个一个TID作为标识符号。项目集X的支持度Sup(X)=Count(X)/|D|关联规则X-Y的支持度Sup(X-Y)=Count(X-Y)/|D|关联规则X-Y的置信度Conf
项目集:项的集合,记为I。牛奶,面包,苹果,etc
事务:事务T是I中的一组项目的集合,每个事务都有个一个TID作为标识符号。
项目集X的支持度
Sup(X)=Count(X)/|D|
关联规则X->Y的支持度
Sup(X->Y)=Count(X->Y)/|D|
关联规则X->Y的置信度
Conf(X->Y)=Count(X->Y)/Count(X)
步骤:
1找出所有频繁项集
2有频繁项集产生强关联规则
算法之Apriori算法
核心思想
频繁1-项集then关联规则then剪枝then频繁2-项集then关联规则then剪枝then频繁3-项集then关联规则then剪枝……
重复此过程直到做不下去为止
算法实现以后单独写出
改进措施FP(FrequentPatternGrowth)频繁模式增长
多层关联规则
基本思想:
自顶向下,在每个概念层找寻频繁项集。然后①在该层发掘关联规则②适当剪枝,向下进入更具体的一层。
可选方案:
1使用一致的最小支持度
2使用递减的最小支持度
3逐层独立
4层交叉单项过滤
5曾交叉k-项集过滤
多维关联规则
涉及两个或者多个维的关联规则
e.g.age(X,“IBMdesktopcomputer”)^occupation(“drive”r)=>buys(X,”laptop”)
多维关联规则注意
强关联规则不一定是有趣的。比如,
buys(X,“computergames”)=>buys(X,“videos”)[Support=40%,confidence=66%]
推导出来的结果可能是满足支持度和置信度的,但是却不是有趣的。