1、题一:TID项目集12a,b,dQg3a,d,f,g4b,d,f5e,f,g6a,b,cdg7a,b,e,g1.给定上表所示的一个事物数据库,写出Apriori算法生成频繁项目集的过程(假定最小支持度二0.5)。一阶项目集支持度a5b4c2d5e3f4g6一阶频繁集支持度a5b4d5f4g6二阶候选集支持度ab3ad4af2ag5bd3bf1bg3df3dg4fg3二阶频繁集支持度ad4ag5dg4三阶候选集支持度adg4三阶频繁集支持度adg4题二样本Ca卜浓度Mg*浓度Na卜浓度ci-W类型A0.20.50.10.1冰川水B0.40.30.403湖泊水C030.40.603冰川水
2、D0.20.60.20.1冰川水E0.50.50.10湖泊水F030.30.40.4湖泊水G030.30.30.27H0.10.50.20.22.使用K-邻近法对两个未知类型的样本进行分类(冰川水或者湖泊水),本例我们使用K=3,即选择最近的3个邻居。Distance(G,A):=0.1;Distance(G,B)=0.03;Distance(G,C)2=0.11Distance(G,D):=0.12;Distance(G,E):=0.16;Distance(G,F):=0.05G的三个最近的邻居为B,F,A,因此G的分类为湖泊水Di
3、stance(H,A)2=0.03;Distance(H,B):=0.18;Distance(H,C)2=0.22Distance(H,D):=0.03;Distance(H,E)2=0.21;Distance(H,F)2=0.16H的三个最近的邻居为A,D,F,因此H的分类为冰川水题三Cat浓度昭浓度Na十浓度C1-浓度类型低高高冰川水高低高高冰川水低低低冰川水斋高低低冰川水低低低低#1泊水高低低低湖泊水低高高低港泊水高低髙低湖泊水低高低斋低高3.使用ID3决策树算法对两个未知类型的样本进行分类。首先讣算各属性的信息增益Gain(Ca+浓
4、度)二0Gain(Mg+浓度)二0.185Gain(Na+浓度)二0Gain(Cl-浓度)二0.32选择C1-浓度作为根节点计算各属性的信息增益Gain(Ca+浓度)二0.24Gain(Na+浓度)=0.91题四Ca十浓度HP浓度曲浓度C匸浓度类型低高高冰川水爲低高高冰川水低低低冰川水A低低冰川水低低低低港泊水高低低低湖泊水低高高低湖泊水高低高低湖泊水低高高低斋低4.使用朴素贝叶斯算法两个未知类型的样本进行分类。P(Ca+浓度二低,Mg+浓度二高,Na+浓度二高,C1-浓度二低|类型二冰川水)*P(冰川水)=P(Ca+浓度二低|类型二冰川水)*P(Mg+浓度二高|类型二冰
5、川水)*P(Na+浓度二高I类型二冰川水卄P(C1-浓度二低|类型二冰川水)蟆(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468P(Ca+浓度二低,Mg+浓度二臥Na+浓度二高,C1-浓度二低丨类型二湖泊水P(湖泊水)二P(Ca+浓度二低|类型二湖泊水)*P(Mg+浓度二高|类型二湖泊水丹P(Na+浓度二高I类型二湖泊水)*P(C1-浓度二低I类型二湖泊水)杆(湖泊水)二0.5*0.25*0.5*1*0.5=0.03123第一个样本为冰川水P(Ca+浓度二高,Mg+浓度二高,Na+浓度二低,C1-浓度二高|类型二冰川水P(冰川水)=P(Ca+浓度二高|类
6、型二冰川水)*P(Mg+浓度二高|类型二冰川水)*P(Na+浓度二低I类型二冰川水P(C1-浓度二高|类型二冰川水)杆(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468P(Ca+浓度二高,Mg+浓度二高,N&+浓度二低,C1-浓度二高|类型二湖泊水)杆(湖泊水)二P(Ca+浓度二高|类型二湖泊水)*P(Mg+浓度二高|类型二湖泊水丹P(Na+浓度二低I类型二湖泊水”P(C1-浓度二高|类型二湖泊水)柑(湖泊水)二0.5*0.25*0.5*0*0.5=0第二个样本为冰川水题五样本ID属性值1属性值2A44B45C33D90E9,5O5F8O5G1
7、265使用凝聚法对上表中的样本进行聚类,建立相应的层次树。A,B,C,D,E,F,G之间的距离矩阵如下表ABCDEFGAB1C75DV50V45E483F3625v,r3L25/T251.5G何,65J46.25根据距离矩阵建立的树如下题六样本ID属性值1属性值2A44B45C33D90E9,50.5F805G1265使用凝聚法对上表中的样本进行聚类,建立相应的层次树。笫一次迭代以A,B作为平均点,对剩余的点根据到A、B的距离进行分配A,C,D,E,F,G,H,B计算两个簇的平均点(6.5,1.7),(4,5)第二次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇D,E,F,H和A,B,