数据挖掘原理与算法课程学习(2)Junn9527

关联规则挖掘是数据挖掘中最活跃的研究方法之一,最早是由Agrawal等人提出的(1993)。

当前对关联规则挖掘问题的研究主要有:关联规则挖掘理论的探索;原有算法的改进和新算法的设计;并行关联规则挖掘(ParallelAssociationRuleMining);数量关联规则挖掘(QuantitiveAssociationRuleMining)等。

3.1、基本概念与解决办法

一个事务数据库中的关联规则挖掘可以描述如下:

设I={i1,i2,...,im}是一个项目集合,事务数据库D={t1,t2,…,tn}是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。

定义1:设项目集I1I,I1在数据集D上的支持度是包含I1的事务在D中所占的百分比,即

support(I1)=||{t∈D|I1t}||/||D||

定义2:对项目集I和事务数据库D,T中所有满足用户指定的最小支持度(Minsupport)的项目集,成为频繁项目集(FrequentItemsets)或大项目集(LargeItemsets)。在所有频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(MaximumFrequentItemsets)或最大项目集(MaximumLargeItemsets)。

定义3:一个定义在I和D上的形如I1I2的关联规则通过满足一定的可信度(Confidence)来给出。所谓规则的可信度是指包含I1和I2的事务数与包含I1的事务数之比,即

confidence(I1I2)=support(I1∪I2)/support(I1)

其中I1、I2I,I1∩I2=F。

定义4:D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则。通常我们所说的关联规则一般是指强关联规则。

关联规则挖掘问题可以划分为两个子问题:

1、发现频繁项目集(近年来的研究重点);

2、生成关联规则;

3.2、经典的频繁项目集生成算法分析

3.2.1、项目集空间理论(Agrawal)

定理1:如果项目集X是频繁项目集,那么它的所有非空子集都是频繁项目集。

定理2:如果项目集X是非频繁项目集,那么它的所有超级都是非频繁项目集。

3.2.2、经典的发现频繁项目集算法

Agrawal等提出的Apriori算法,通过项目集元素数目的不断增长来逐步完成频繁项目集的发现。

算法1:Apriori(发现频繁项目集)

输入:数据集D;最小支持数minsup_count

输出:频繁项目集L

(1)L1={large1–itemsets};//所有支持度不小于minsupport的1-项目集

(2)FOR(k=2;Lk-1≠F;k++)DOBEGIN

(3)Ck=apriori–gen(Lk-1);//Ck是k个元素的候选集

(4)FORalltransactionst∈DDOBEGIN

(5)Ct=subset(Ck,t);//Ct是所有t包含的候选集元素

(6)FORalltransactionsc∈CtDOc.count++;

(7)END

(8)Lk={c∈Ck|c.count≥minsup_count}

(9)END

(10)L=∪Lk;

算法1中调用了apriori–gen(Lk-1),它是通过(k-1)-频繁项目集产生k-候选集。

算法2:apriori–gen(Lk-1)(候选集产生)

输入:(k-1)-频繁项目集Lk-1

输出:k-候选集Ck

(1)FORallitemsetp∈Lk-1DO

(2)FORallitemsetq∈Lk-1DO

(3)IFp.item1=q.item1,p.item2=q.item2,…,p.itemk-2=q.itemk-2,p.itemk-1k-1THENBEGIN

(4)c=p∞q;//吧q的第k-1个元素连到p后

(5)IFhas_infrequent_subset(c,Lk-1)THEN

(6)deletec;//删除含有非频繁项目子集的候选元素

(7)ELSEaddctoCk

(8)END

(9)ReturnCk

算法2中调用了has_infrequent_subset(c,Lk-1),作用是判断c是否需要加入到k-候选集中。

算法3:has_infrequent_subset(c,Lk-1)(判断候选集的元素)

输入:一个k-候选项目集c,(k-1)频繁项目集Lk-1

输出:c是否从候选集中删除的布尔判断

(1)FORall(k-1)-subsetsofcDO

(2)IFSLk-1THENreturnTRUE

(3)ReturnFALSE

3.2.3、关联规则生成算法

在得到了所有的频繁项目集之后,可以按照下面的步骤生成关联规则:

(1)对于每个频繁项目集l,生成其所有其所有的非空子集;

(2)对于l的每个非空子集x,计算confidence(x),如果configdence(x)≥minconfidence,那么x(l-x)成立。

算法4:从给定的频繁项目集中生成强关联规则

输入:频繁项目集;最小信任度minconf

输出:强关联规则。

Rule-generate(L,minconf)

(1)FOReachfrequentitemsetlkinL

(2)genrules(lk,lk);

算法4的核心是genrules递归过程,它实现一个频繁项目集中所有强关联规则的生成。

算法5:递归测试一个频繁项目集中的关联规则

genrules(lk:frequentk-itemset,xm:frequentm-itemset)

(1)X={(m-1)-itemsetsxm-1|xm-1inxm};

(2)FOReachxm-1inXBEGIN

(3)conf=support(lk)/support(xm-1);

(4)IF(conf≥minconf)THENBEGIN

(5)printtherule“xm-1(lk-xm-1),withsupport=support(lk),confidence=conf”;

(6)IF(m-1>1)THEN//generateruleswithsubsetsofxm-1asantecedents

(8)END;

关联规则生成算法的优化问题主要集中在减少不必要的规则生成方面;

定理3:设项目集X,X1是X的一个子集,如果规则X(l-X)不是强规则,那么X1(l-X1)一定不是强规则。

这个定理告诉我们,在生成关联规则尝试中可以利用已知的结果来有效避免测试一些肯定不是强规则的尝试。

定理4:设项目集X,X1是X的一个子集,如果规则YX是强规则,那么规则YX1一定是强规则。

这个定理告诉我们,在生成关联规则尝试中可以利用已知的结果来有效避免测试一些肯定是强规则的尝试。

3.3、Apriori算法的性能瓶颈问题

Apriori算法有两个致命的性能瓶颈:

(1)多次扫描事务数据库,需要很大的I/O负载;

(2)可能产生庞大的候选集。

3.4、Apriori算法的改进算法

3.4.1、基于数据分割(Partition)的方法

它的基本思想是,首先把大容量数据库从逻辑上分成几个互不相交的块,对每块应用挖掘算法生成局部的频繁项目集,然后把这些局部的频繁项目集作为候选的全局频繁项目集,通过测试它们的支持度来得到最终的全局频繁项目集。

该方法至少在两个方面有所提高:

(1)合理利用主存空间;

(2)支持并行挖掘算法。

该方法的理论基础可以通过下面的定理来保证:

定理5:设数据集D被分割成分块D1、D2、…、Dn,全局最小支持度为minsupport,假设对应的最小支持数为minsup_count。如果一个数据分块Di的局部最小支持数为minsup_conuti的话,那么局部最小支持数minsup_conuti应按如下方法生成:

minsup_conuti=minsup_count*||Di||/||D||

可以保证所有的局部频繁项目集成为全局频繁项目集的候选(即所有的局部频繁项目集涵盖全局频繁项目集)。

3.4.2、基于散列(hash)的方法

1995年,Park等提出了一个基于散列(hash)技术的产生频繁项目集的算法。由于寻找频繁项目集的主要计算是在生成2-频繁项目集L2上,因此,Park等引入散列技术来改进产生2-频繁项目集的方法。但是,理论上说,这种方法可以扩展到产生k-项目集(k>2)中。

算法思想是,把扫描的项目放在不同的Hash桶中,每队项目最多只能在一个特定的桶中,这样可以对每个桶中的项目子集进行测试,减少了候选集生成的代价。

3.4.3、基于采样(sampling)的方法

1996年,Toivonen提出了一个基于采样技术产生频繁项目集的算法。

算法思想是:先使用数据库的抽样数据得到一些可能成立的规则,然后利用数据库的剩余部分验证这些关联规则是否正确。

从本质上说,使用一个抽样样本而不是使用整个数据集的原因是效率问题。但是,它的最大问题是抽样数据的选取以及由此而产生的结果偏差过大,即存在所谓的数据扭曲(DataSkew)问题。

3.5、对项目集空间理论的发展

随着数据库容量的增大,重复访问数据库将导致性能下降。因此目前的研究集中在一下几个方面:

(1)探索新的关联规则挖掘理论:突破Apriori算法,利用新的理论生成新的算法。

(2)提高裁减项目集格空间的效率:如Close算法。

(3)分布和并行环境下的关联规则挖掘问题。

3.5.1、Close算法

1999年,Pasquier等提出了闭合项目集挖掘理论,并给出了基于这种理论的Close算法。实验证明,它对特殊数据是可以减少数据库扫描次数的。

Close算法基于这样的原理:一个频繁闭合项目集的所有闭合子集一定是频繁的;一个非频繁闭合项目集的所有闭合超集一定是非频繁的。

算法6:Close算法

(1)generatorsinFCC1={1-itemsets}//候选频繁闭合1-项目集

(2)FOR(i=1;FCCi.grnerators=F;i++)DOBEGIN

(3)closuresinFCCi=F;

(4)supportsinFCCi=0;

(5)FCCi=Gen_Closure(FCCi)//计算FCC的闭合

(6)FORallcandidatecloseditermsetscFCCiDOBEGIN

(7)IF(c.support≥minsupport)THENFCi=FCi∪{c};

//修剪小于最小支持度的项

(9)FCCi+1=Gen_Generator(FCi);//生成FCCi+1

(10)END

(11)FC=∪iFCi(FCi.closure,FCi.support);//返回FC

(12)Derivingfrequentitemsets(FC,L);

函数Gen_Closure(FCCi)产生候选的闭合项目集,用于频繁项目集的生成。

算法7:Gen_Closure函数

(1)FORalltransactionstDDOBEGIN

(2)Go=Subset(FCCi.generator,t);

(3)FORallgeneratorspGoDOBEGIN

(4)IF(p.closure=F)THENp.closure=t;

(5)ELSEp.closure=p.closure∩t;

(6)p.support++;

(9)Answer=∪{cFCCi|c.closure≠F};

函数Gen_Generator(FCi)实现Apriori算法的两个重要步骤:连接和修剪。

算法8:Gen_Generator函数

(1)FORallgeneratorspFCCi+1DOBEGIN

(2)Sp=Subset(FCi.generator,p);//取得p的所有i-项目子集

(3)FORallsSpDOBEGIN

(4)IF(ps.closure)THEN//如果p是它的i-项子集闭合的子集

(5)DeletepfromFCCi+1.generator;//将它删除

(6)END

(8)Answer=∪{cFCCi+1}

函数Derivingfrequentitemsets(FC,L)通过频繁闭合项目集得到频繁项目集

算法9:Derivingfrequentitemsets(FC,L)

(1)k=0;

(2)FORallfrequentcloseditemsetscFCDOBEGIN

(3)L||c||=L||c||∪{c}//按项的个数归类

(4)IF(k<||c||)THENk=||c||;//记下项目集包含的最多的个数

(5)END

(6)FOR(i=k;i>1;i--)DOBEGIN

(7)FORallitemsetscLiDO

(8)FORall(i-1)-subsetsofcDO//分解所有(i-1)-项目集

(9)IF(s!Li-1)THENBEGIN//不包含在Li-1中

(10)S.support=c.support;//支持度不变

(11)Li-1=Li-1∪{s};//添加到Li-1中

(12)END

(13)L=∪Li

3.5.2、FP-tree算法

2000年,Han等提出了FP-tree算法,这个算法只进行2次数据库扫描,不使用候选集,直接压缩数据库成一个频繁模式树,最后通过这棵树生成关联规则。

FP-tree算法由两个步骤完成:

1、利用事务数据库中的数据构造FP-tree。

FP-tree的构造过程中,将出现频度高的项目放在靠近根节点。

算法10:FP-tree构造算法

输入:事务数据库DB;最小支持度阀值Minsup

输出:FP-tree,简称T

Build_FP-tree(DB,Minsup,T)

(1)扫描事务数据库DB一次,形成1-频繁项表L(按照支持度降序排列);

(2)创建T的根节点,以“root”标记。对于DB中的每个事务执行如下操作:对事务中的频繁项按照L中的顺序进行排序,排序后的频繁项表记为[p|P],其中p是第一个元素,P是剩余元素的表。调用insert_tree([p|P],T)将此元组对应的信息加入到T中。

insert_tree是对数据库的一个元组对应的项目集的处理,它对排序后的一个项目集的所有项目进行递归式处理直到项目表为空。

算法11:insert_tree([p|P],T)

(1)IF(T有子女N使得N.项名=p.项名)THENN的计数加1;

(2)ELSE创建一个新结点N,将其计数设置为1,链接到它的父结点T,并且通过结点链结构将其链接到具有相同项名的结点;

(3)如果p非空,递归地调用insert_tree(P,N)。

2、从FP-tree中挖掘频繁模式的方法

用FP-tree挖掘频繁集的基本思想是分而治之,大致过程如下:

(1)对每个项,生成它的条件模式基(一个“子数据库”,有FP-tree中与后缀模式一起出现的前缀路径集组成),然后是它的条件FP-tree;

(2)对每个新生成的条件FP-tree,重复这个步骤;

(3)直到FP-tree为空,或者只含有唯一的一个路径(此路径的每个子路径对应的项目集都是频繁集)。

算法12:在FP-tree中挖掘频繁模式

输入:构造好的FP-tree;事务数据库DB;最小支持度阀值Minsup

输出:频繁模式的完全集

方法:CallFP-growth(FP-tree,null).

FP-growth通过递归调用方式实现频繁模式

算法13:FP-growth(Tree,a)

(1)IF(Tree只含单位路径P)THENFOR路径P中结点的每个组合(记为b)DO

产生模式b∪a,其支持度support=b中结点的最小支持度;

(2)ELSEFOReachai在FP-tree的项头表(倒序)DOBEGIN

(2-1)产生一个模式b=ai∪a,其支持度support=ai。support;

(2-2)构造b的条件模式基,然后构造b的条件FP-treeTreeb;

(2-3)ifTreeb≠FTHENcallFP-growth(Treeb,b);

3.6、项目集格空间和它的操作

3.6、3.7是本书作者提出的一种关联规则挖掘的新理论,原始文献为:

毛国君,刘椿年。基于项目集格操作的关联规则挖掘算法。计算机学报,第25卷,第4期。2002。

为了重复利用对数据库的扫描信息,把来自数据库的信息组织成项目集格(SetofItemsets)形式,并且对项目集格及其操作代数化。

定义5:(项目集格)一个项目集格空间可以用三元组(I,S,p)来刻画,其含义如下:

项目定义域I:I={i1,i2,…,im}为所涉及项目的定义范围;

项目集变量集S:S中的每个项目集变量形式为ISS={IS1,IS2,…,ISn},其中ISi是定义在I上的项目集;

操作p:关于S中的项目集变量的操作集。

定义6:(项目集格上的集合操作)项目集间(上)的属于()、包含()、并(U)、交(∩)、差(-)等操作和普通的集合操作相同。

定义7:(项目集上的亚操作)设ISS1和ISS2是定义在I上的来两个项目集的集合,IS是定义在I上的一个项目集,定义如下操作:

亚属于(sub):ISIsubSS1当且仅当$IS1ISS1,使得ISIS1;

亚包含(sub):ISS1subISS2当且仅当"IS1ISS1IS1subISS2;

亚交(∩sub):ISS1∩subISS2={IS|ISsubISS1且ISsubISS2};

亚并(Usub):ISS1UsubISS2={IS|ISsubISS1或ISsubISS2};

亚操作的性质:类似集合间的性质,不难理解。

3.7、基于项目集操作的关联规则挖掘算法

3.7.1、关联规则挖掘空间

定义8:(关联规则挖掘空间)关联规则挖掘空间定义为一个五元组W=(I,D,O,U,R),其含义如下:

I={i1,i2,…,im},为W所涉及的全体项目;

D={t1,t2,…,tn},为W所基于的事务数据库;

O={o1,o2,…,ok},为W上关于D的元素的操作集合;

U={u1,u2,…,up},为W上用户给定的限制参数及约束条件;

R={r1,r2,…,rq},为D中所蕴含的关联规则集。

3.7.2、三个实用算子

定义9:(考虑支持度下的项目集加入项目集格的操作)一个项目集IS加入项目集格ISS的操作算子join(IS,ISS)描述为:

(1)项目集格为ISS=ISS原U{IS};

(2)IS在ISS中的支持度按如下方法给出:

如果ISISS原,则sup_conut(IS)=1;

如果ISISS原,则sup_conut(IS)++。

算法14:join(IS,ISS)

(1)sup_count(IS)=1;flog=0;

(2)FORallIS1ISSDO

(3)IFIS=IS1THENBEGIN

(4)sup_count(IS1)++;

(5)Flag=1;

(7)IFflag=0THENISS=ISSU{IS}

定义10(频繁项目集格生成操作)利用IS在ISS中挑选频繁项目集并加入到频繁项目集格ISS*的操作算子make_fre(IS,ISS,ISS*)描述为:

"ISS*sub{IS},如果IS*的支持数≧minsup_count,则IS*可能作为频繁项目集加入ISS*中。

算法15:make_fre(IS,ISS,ISS*)

(1)FORallIS*sub{IS}DOBEGIN

(2)sup_count(IS*)=0;

(3)FORallIS**ISSDO

(4)IFIS*IS**THEN

(5)sup_count(IS*)+=sup_count(IS**);

(6)IFsup_count(IS*)≧minsup_countTHEN

(7)IFIS*subISS*THENBEGIN

(8)prune(IS*,ISS*);//把不需要的项目集从ISS*中裁减掉

(9)ISS*=ISS*U{IS*}

(11)prune(IS*,ISS);//把不需要的项目集从ISS中裁减掉

定义11:(频繁项目集格的裁减操作)利用项目集IS1裁减项目集格ISS1的操作算子prune(IS1,ISS1)描述为:

对"ISISS1,如果ISsub{IS1},把IS从ISS1中剔除。

算法16:prune(IS1,ISS1)

(1)FORallISISS1DO

(2)IFISsub{IS1}THENISS1=ISS1-{IS};

3.7.3、最大频繁项目集格的生成算法

算法17:ISS-DMAlgorithm(最大频繁项目集生成算法)

输入:数据库D

输出:最大频繁项目集格ISS*

(1)Input(minsup_count);

(2)ISSF;ISS*F;

(3)FORallISDDOBEGIN//取D的一个项目集IS

(4)join(IS,ISS);

(5)make_fre(IS,ISS,ISS*);

(7)Answer=ISS*;

3.8、改善关联规则挖掘质量问题

衡量关联规则挖掘结果的有效性应该从多种综合角度来考虑:

(1)准确性;

(2)实用性;

(3)新颖性;

可以在用户主观和系统客观两个层面上考虑关联规则挖掘的质量问题。

在用户主观层面上,约束数据挖掘可以为用户参与知识发现工作提供一种有效的机制。

在系统客观层面上,除了使用“支持度-可信度”的关联规则挖掘度量框架外,还需要研究引入新的度量机制。

3.9、约束数据挖掘问题

3.9.1、约束在数据挖掘中的作用

(1)聚焦挖掘任务,提高挖掘效率;

(2)保证挖掘的精确性;

(3)控制系统的使用规模。

3.9.2、约束的类型

1、单调性约束(MonotoneConstraint)

定义15:所谓一个约束Cm是单调性约束是指满足Cm的任何项目集S的超集也能满足Cm。

2、反单调性约束(Anti-monotoneConstraint)

定义16:约束Ca是反单调约束是指对于任意给定的不满足Ca的项目集S,不存在S的超集能够满足Ca。

3、可转变的约束(ConvertibleConstraint)

定义17:如果一个约束C满足下面的条件,那么称它为反单调可转变的:

(1)C(S)既不是单调性约束,也不是反单调性约束;

(2)若存在顺序R,使得经R排序后的I满足:任给S*{suffix_S},有C(S)C(S*)。

定义18:如果一个约束C满足下面的条件,那么称它为单调可转变的:

(2)若存在顺序R,使得经R排序后的I满足:任给S*{suffix_S},有C(S*)C(S)。

4、简洁性约束(SuccinctConstraint)

没看懂。

3.10、时态约束关联规则挖掘

参考资料:

毛国君,刘椿年。时态约束下的数据挖掘问题与算法。电子学报,2003,Vol.31,No.11:1690~1694

欧阳为民,蔡庆生。在数据库中发现具有时态约束的关联规则。软件学报,1999。Vol.10,NO.5

时态约束可以起到过滤过时数据、聚焦用户目标以及加速形成关联规则生成等作用。

3.11、关联规则挖掘中的一些更深入的问题

3.11.1、多层次关联规则挖掘

根据规则中涉及的层次,多层次关联规则可以分为同层次关联规则和层间关联规则:

如果一个关联规则对应的项目是在同一个粒度层次上,那么它是同层关联规则;

如果一个关联规则对应的项目是在不同的粒度层次上,那么它是层间关联规则。

目前,多层次关联规则挖掘的度量方法基本沿用了“支持度-可信度”的框架,对支持度的设置一般有两种:

(1)统一的最小支持度;

(2)不同层次使用不同的最小支持度。

多层次关联规则挖掘方法有以下几种:

(1)自上而下方法:先找高层规则,再找它的下一层规则;

(2)自下而上方法:

(3)在一个固定层次上挖掘:

3.11.2、多维关联规则挖掘

在OLAP中挖掘多维、多层关联规则是一个很自然的过程。

有两种常见形式:

(1)维内的关联规则;

(2)混合维关联规则。

3.11.3、数量关联规则挖掘

目前数量关联规则挖掘问题重要集中在以下三个方面:

(1)连续数值属性的处理:

两种基本方法:离散化方法;统计或模糊方法。

(2)规则的优化:

对产生的大量冗余规则进行优化,找出用户真正感兴趣的规则集。

(3)提高挖掘效率:

3.12、数量关联规则挖掘方法

目前对数量关联规则挖掘的研究主要基于两条技术路线:

(1)通过对比较成熟的布尔关联规则算法的改进来解决数量关联规则问题;

(2)用一种全新的思路和算法来解决数量关联规则挖掘问题。

THE END
1.数据挖掘概念(AnalysisServices这些模式和趋势可以被收集在一起并定义为“数据挖掘模型”。挖掘模型可以应用于特定的业务方案,例如: 预测销售额 向特定客户发送邮件 确定可能需要搭售的产品 查找客户将产品放入购物车的顺序序列 生成挖掘模型是大型过程的一部分,此过程包括从提出相关数据问题并创建模型以解答这些问题到将模型部署到工作环境的所有事情。https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
3.C语言在数据挖掘中的作用编程语言C语言在数据挖掘中扮演着重要的角色,尽管它可能不是最常用的工具,但它的性能和灵活性使其在特定情况下非常有用。C语言在数据挖掘中的应用主要体现在以下几个方面: C语言在数据挖掘中的作用 高效处理大数据:C语言允许程序员直接操作内存,提高程序的执行效率,适合处理大规模数据集和复杂计算任务。 自定义算法开发:Chttps://m.yisu.com/zixun/942501.html
4.物联网原理及应用期末复习免挂指南交互原理:电子标签与阅读器之间通过耦合元件实现射频信号的空间(无接触)耦合;在耦合通道内,根据时序关系,实现能量的传递和数据交换。 传感器概念、分类、工作原理 传感器定义与工作原理:传感器(sensor)是由敏感元件和转换元件组成的一种检测装置,能感受到被测量,并能将检测和感受到的信息,按一定规律变换成为电信号(电压https://www.jianshu.com/p/33aa0cb1147c
5.什么是数据挖掘?定义重要性与类型SAP数据挖掘工具内置于高管仪表盘,用于从社交媒体、物联网传感器、位置感知设备、非结构化文本、视频等大数据中挖掘洞察。现代数据挖掘工具依托云计算、虚拟计算和内存数据库,能够以成本高效的方式管理各种来源的数据,并支持按需扩展。 数据挖掘的工作原理 数据挖掘的方法多种多样,不同的数据挖掘者会采用不同的方式。具体https://www.sap.cn/products/technology-platform/hana/what-is-data-mining.html
6.数据挖掘原理与实践学习(1)监视地震活动的地震波是数据挖掘吗说来惭愧,开始写这篇博客的动力是由于我数据挖掘考试挂了自己在寒假重新学习这一科,顺带着写写自己的感悟,希望能与大家一起学习。我有什么错漏或者大家什么好的建议都可以在评论区留言,我会认真回复的。我在这里使用的教材是电子工业出版社出版的《数据挖掘原理与实践学习》。 什么是https://blog.csdn.net/debug_robot/article/details/86521986
7.数据挖掘技术方法(精选十篇)笔者认为要提高复习课的效率,必须突破现在的复习课模式,挖掘技术背后的思想与方法,让学生进行深度学习,学生才会乐意参与到复习课堂中来。 二、高中信息技术复习课的现状 1.忽略知识的原理性 技术起源于人类生活的需求,人在开发技术的过程中,总会持有一定的思想去设想它,会持有一定的方法或遵循某种规律、原理去实现它,https://www.360wenmi.com/f/cnkeyg31vygx.html
8.2023版最新最强大数据面试宝典14. 在写MR时,什么情况下可以使用规约 规约(combiner)是不能够影响任务的运行结果的局部汇总,适用于求和类,不适用于求平均值,如果reduce的输入参数类型和输出参数的类型是一样的,则规约的类可以使用reduce类,只需要在驱动类中指明规约的类即可。 15. YARN集群的架构和工作原理知道多少 https://blog.itpub.net/70024922/viewspace-2935571/
9.人工智能心得体会(通用11篇)近年来,人工智能的研究和应用出现了许多新的领域,它们是传统人工智能的延伸和扩展。在新世纪开始的时候,这些新研究已引起人们的更密切关注。这些新领域有分布式人工智能与艾真体(agent)、计算智能与进化计算、数据挖掘与知识发现,以及人工生命等。下面逐一加以概略介绍。 https://www.ruiwen.com/xindetihui/5729744.html
10.基于数据挖掘技术研究评审专家名单泄露风险数据挖掘的基本原理和适用场景 数据挖掘是从大量的、不完全的、随机的数据中,提取隐含在其中的、事先无法预知的、但是潜在有用的信息和知识的过程。数据挖掘技术可以用来支持商务智能应用,如顾客分析、定向营销、工作流管理、欺诈检测以及自动化销售等。例如,银行可以通过数据挖掘技术对客户的信用评级进行分析https://www.ahggzy.org.cn/showdoc?docid=05a0af6a3f4d4d70a4ad128f256e36b3&id=557a28633b8d41c1bee5227e57518c30&subid=2957ab2c43e947c69c7f5158c159f601
11.数据挖掘的定义和解释数据挖掘的原理是什么? 数据挖掘涉及检查和分析大量信息,旨在发现有意义的模式和趋势。该过程包括收集数据、制定目标和应用数据挖掘技术。所选策略可能因目标而异,但数据挖掘的经验过程是相同的。典型的数据挖掘过程可能如下所示: 定义目标:例如,是否要进一步了解客户行为?是否要削减成本或增加收入?是否要识别欺诈?在数据https://www.kaspersky.com.cn/resource-center/definitions/data-mining
12.数据挖掘需要具备哪些思维原理?近几年,数据挖掘受到了学术界和工业界的广泛关注。所谓数据挖掘,指的是从数据库的大量数据中,揭示出隐含的、先前未知的、有潜在价值的信息的非平凡过程。日前,公众号“人工智能产业链联盟”发文称,如果你想从事数据挖掘工作的话,就需要具备以下四个思维原理。 https://time.geekbang.org/column/article/220218
13.爬虫课堂(十六)Scrapy框架结构及工作原理腾讯云开发者社区爬虫课堂(十六)|Scrapy框架结构及工作原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services)或者通用https://cloud.tencent.com/developer/article/1131826
14.数据挖掘原理(豆瓣)我要写书评 数据挖掘原理的书评 ···(全部 0 条) 这本书的其他版本· ···(全部2) The MIT Press (2001) 7.5分12人读过https://book.douban.com/subject/1103515/
15.人工智能心得体会9篇人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者https://www.unjs.com/fanwenwang/xdth/20221130181133_6041555.html
16.一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 马云在2012年网商大会上的演讲中说过:“假如我们数据分析师有了一个数据预报台,就像为企业装上了一个GPS和雷达,企业的出海将会更有把握。”。这里的数据预报台就是下文所述的商业智能。 什么是商业智能(Business Intelligence) https://www.cda.cn/view/621.html
17.MongoDB的集群架构与设计比如:用于分析、报表,数据挖掘,系统任务等。 3.3 副本集集群架构原理 一个副本集中Primary节点上能够完成读写操作,Secondary节点仅能用于读操作。Primary节点需要记录所有改变数据库状态的操作,这些记录保存在oplog中,这个文件存储在local数据库,各个Secondary节点通过此oplog来复制数据并应用于本地,保持本地的数据与主节点https://developer.aliyun.com/article/1323982
18.连锁经营管理专业(专科)(630604)商业采购与配送原理(07986本课程是连锁经营管理专业的核心主干课程之一。先修课程是管理学、市场营销和连锁经营原理与管理技术。 Ⅱ、课程内容与考核目标 第一章 导论 一、学习目的和要求 要求学生能够掌握商品概念,了解商品管理研究对象,掌握商品组织机构和商品管理原则,了解商品管理流程。 https://www.shmeea.edu.cn/page/04400/20190517/12734.html
19.数据挖掘原理与算法PDF扫描版[10MB]电子书下载数据挖掘原理与算法的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员。 数据挖掘原理与算法 目录: 前言 第1章 导论 1.1 数据挖掘的社会需求 1.2 什么是数据挖掘 1.3 数据挖掘的数据来源 1.4 数据挖掘的分类 1.4.1 分类分析(classification analysis) 1.4.2 聚类分析(clustering analysishttps://www.jb51.net/php/332629
20.遥测终端机的工作原理和主要应用领域无线数据采集传输终端,它是自动化监测与控制系统的核心装置,将现场的传感仪表与监控中心的平台无线连接起来,起到承上启下的作用。通常由信号输入/出模块、微处理器、有线/无线通讯设备、电源及外壳等组成,由微处理器控制,并支持网络系统。本文将详细介绍遥测终端机的定义、工作原理、应用领域以及未来发展趋势。一https://baijiahao.baidu.com/s?id=1781168882790697138&wfr=spider&for=pc
21.过来看!27个深度学习中的神经网络工作原理及其应用27个深度学习中的神经网络,这些神经网络拓扑结构应用于不同的场合,达到不同的目的,今天主要介绍每个神经网络的应用及其工作原理。 01感知器(P) 感知器模型也称为单层神经网络,这个神经网络只包含两层: 输入层 输出层 在这种类型的神经网络中,没有隐藏层。它接受一个输入并计算每个节点的加权输入。之后,它使用激活https://www.bilibili.com/read/cv12079642
22.80本值得一读的最佳数据科学书籍(一),站长资讯平台商业数据科学由著名的数据科学专家Foster Provost和Tom Fawcett撰写,介绍了数据科学的基本原理,并引导您完成从收集的数据中提取有用的知识和业务价值所必需的“数据分析思维”。本指南还可以帮助您了解当今使用的许多数据挖掘技术。 3.Doing Data Science:Straight Talk from the Frontline https://www.west.cn/cms/news/idcnews/2019-12-23/218777.html
23.《数据挖掘:原理与应用》参考答案.pdf《数据挖掘:原理与应用》参考答案.pdf 19页内容提供方:小逗号 大小:914.95 KB 字数:约1.95万字 发布时间:2022-09-07发布于四川 浏览人气:937 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)《数据挖掘:原理与应用》参考答案.pdf 关闭预览 想预览更多内容,点击免费在线https://max.book118.com/html/2022/0905/7060035031004162.shtm
24.waf工作原理流程图WAF权限管理华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:waf工作原理流程图。https://support.huaweicloud.com/topic/1336652-3-W