======================第一章===========================
1.给出下列英文缩写或短语的中文名称和简单的含义
(1)DataMining数据挖掘:从大量数据中提取或者“挖掘”知识。
(2)Artificialintelligence人工智能:是研究开发用于模拟延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的术学科。
(4)Knowledgeengineering知识工程:人工智能在知识信息处理方面的发展,研究如何由计算机表示知识,进行问题的自动求解。
(5)Informationretrieval信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的过程和技术。
(6)Datavisualization数据可视化:是关于数据之视觉表现形式的研究。
2.给出下列英文缩写或短语的中文名称和简单的含义:
(1)OLTP(on-linetransactionprocessing)联机事务处理:是推动和管理面向事务的应用程序的一类程序,典型地针对数据输入和恢复事务处理。
(2)OLAP(on-lineanalyticprocessing)联机分析处理:使分析人员,管理人员或执行人员能够从多角度对信息进行快速一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。
(3)decisionsupport决策支持:为决策者提供分析问题,建立模型,模拟决策过程和方案的环境
(4)KDD(knowledgeDiscoveryindatabases)从数据集中识别出有效地、新颖的、潜在有用的,以及最终可以理解的模式的非平凡过程。
(5)transactiondatabase事务数据库:由一个文件组成,其中每个记录代表一个事务的集合
(6)distributeddatabase分布式数据库:是用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。
3.数据(data)、信息(information)和知识(knowledge)是人们认识和利用数据的三个不同阶段,数据挖掘技术是如何把它们有机的结合在一起的?
客观世界---(收集)---》数据---(分析)---》信息---(深入分析)---》知识---(决策与行动)---》客观世界。
8.从数据挖掘研究角度看如何理解数据、信息和知识的不同和联系?
数据时原材料他只是描述发生了什么事,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系,赋予数据以某种意义和关联,就形成所谓信息。信息虽给出了数据中一些有定义意义的东西,但它往往和人们需要完成的任务没有直接的关系,也还不能做为判断,决策和行动的依据,而所谓知识,可定义为信息块的一组逻辑联系其关系式通过上下文或过程的贴近度发现的。
9.简述数据挖掘技术将来的发展趋势
1)、形式化描述的语言
2)、可视化的数据挖掘过程
3)、web网络中数据挖掘的应用
4)、融合各种异构数据的挖掘技术
5)、处理的数据将会涉及到更多的数据类型
6)、交互式发现
7)、知识的维护更新
11、你认为应该如何来理解KDD和datamining的关系?说明你的理由?
在某些时候可以认为datamining就是KDD,但datamining所包含的范围相对比较小一点。Datamining简单地讲就是从大量数据中挖掘或抽取出知识,而KDD它是一个从大量数据中抽取挖掘出未知的,有价值的模式或规律等知识的复杂过程。
12.解释datamining理解为KDD整个过程的一个关键步骤的合理性?
都是利用智能方法挖掘数据模式或规律知识
=========================第二章====================
1.KDD是一个多步骤的处理过程,它一般包含哪些基本阶段?简述各阶段的功能。
KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。
(3)数据预处理阶段的功能:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性。
(4)数据挖掘阶段的功能:运用选定的数据挖掘算法,从数据中提取出用户所需要的知识。
(5)模式评价阶段的功能:将KDD系统发现的知识以用户能了解的方式呈现,并且根据需要进行知识的评价。如果发现知识和用户挖掘的目标不一致,则重复以上阶段以最终获得可用知识。
5.阶梯处理过程模型是知识发现的基本模式,画出它的基本处理流程,并简要说明各阶段的任务。
图参考课本P43页图2-1KDD阶梯处理过程模型;
源数据—(数据选择)—>目标数据—(数据预处理)—>预处理后的数据—(数据缩减)—>缩减后的数据—(数据挖掘)—>模式—(模式解释与评估)—>知识各阶段任务:
(3)数据预处理:主要是对上一阶段产生的数据进行再加工,检查数据的完整性及数据一致性,对其中的噪音数据进行处理、对丢失的数据可以利用统计方法进行填补。对一些不适合于操作的数据进行必要的处理等。