1、第一章数据挖掘(DataMining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。2,人工智能(ArtificialIntelligence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。3,机器学习(MachineLearning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。4,知识
2、工程(KnowledgeEngineering)是人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。5,信息检索(InformationRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。6,数据可视化(DataVisualization)是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。7,联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。在联机事务处理中,事务是被立即执行的,这
4、用的,以及最终可理解的模式的非平凡过程。11,事务数据库(TransactionDatabase)个事务数据库由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务标记,多个项目组成一个事务12,分布式数据库(DistributedDatabase)是用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。第三章13,并行关联规则挖掘(ParallelAssociationRuleMining)是指利用并行处理机,使用挖掘算法或在并行计算的环境下完成数据的高效挖掘工作。14,数量关联规则挖掘(QuantitiveAssociationRuleMin
5、ing)对含有非离散的数值属性的数据进行挖掘的技术14,频繁项目集(FrequentItemsets)对项目集I和事务数据库D,T中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于Minsupport的I的非空子集15,最大频繁项目集(MaximumFrequentItemsets)在频繁项目集中挑选出所有不被其他元素包含的频繁项目集闭合项目集(CloseItemset)如果项目的直接超集都不具有和它相同的支持度技术则该项目是闭合的多层次关联规则:具有概念分层的关联规则挖掘产生的规则称为多层关联规则。多维关联规则:在关联规则中的项或属性每个涉及多个维,
6、则它就是多维关联规则。购物篮分析:通过支持度和置信度这两个值来对顾客所购买的商品组成情况进行分析的方法。20,强关联规则:D在I上满足最小支持度和最小信任度的关联规则称为强关联规则第四章数据分类(DataClassification)数据分类可以看成是从数据库到一组预先定义的、非交叠的类别的映射。K-最邻近方法(K-NN)计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。决策树(DecisionTree)决策树是从数据中生成分类器的一个重要的、基本的和有效的方法。采用自定向下的递归方式,每个决
7、策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。4,熵(Entropy)对事件对应的属性的不确定性的度量。一个属性的熵越大,它蕴含的不确定信息越大,越有利于数据的分类。5,后验概率(PosteriorProbability)当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验概率,利用后验概率再进行风险分析。第五章划分方法(partitioningmethods)给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就
8、代表一个聚类,KN。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组。层次方法(hierarchicalmethods)这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。基于密度的方法(density-basedmethods)基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。基于网格的方法(grid-basedmethods)这种方法首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。围绕中心点的划分(PAM)最初随机选