《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的mysql教程|数据挖掘技术的概念_在线学习

项目集：项的集合，记为I。牛奶，面包，苹果，etc事务：事务T是I中的一组项目的集合，每个事务都有个一个TID作为标识符号。项目集X的支持度Sup(X)=Count(X)/|D|关联规则X-Y的支持度Sup(X-Y)=Count(X-Y)/|D|关联规则X-Y的置信度Conf

项目集：项的集合，记为I。牛奶，面包，苹果，etc

事务：事务T是I中的一组项目的集合，每个事务都有个一个TID作为标识符号。

项目集X的支持度

Sup(X)=Count(X)/|D|

关联规则X->Y的支持度

Sup(X->Y)=Count(X->Y)/|D|

关联规则X->Y的置信度

Conf(X->Y)=Count(X->Y)/Count(X)

步骤：

1找出所有频繁项集

2有频繁项集产生强关联规则

算法之Apriori算法

核心思想

频繁1-项集then关联规则then剪枝then频繁2-项集then关联规则then剪枝then频繁3-项集then关联规则then剪枝……

重复此过程直到做不下去为止

算法实现以后单独写出

改进措施FP(FrequentPatternGrowth)频繁模式增长

多层关联规则

基本思想：

自顶向下，在每个概念层找寻频繁项集。然后①在该层发掘关联规则②适当剪枝，向下进入更具体的一层。

可选方案：

1使用一致的最小支持度

2使用递减的最小支持度

3逐层独立

4层交叉单项过滤

5曾交叉k-项集过滤

多维关联规则

涉及两个或者多个维的关联规则

e.g．age(X,“IBMdesktopcomputer”)^occupation(“drive”r)=>buys(X,”laptop”)

多维关联规则注意

强关联规则不一定是有趣的。比如，

buys(X,“computergames”)=>buys(X,“videos”)[Support=40%,confidence=66%]

推导出来的结果可能是满足支持度和置信度的，但是却不是有趣的。

THE END

《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的mysql教程