随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。
1空间数据挖掘研究概述
空间数据挖掘(spatialDataMining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
2空间数据挖掘在GIS中的应用
空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在GIS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
3空间数据挖掘面临的问题
(1)多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2)空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3)没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4)空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5)空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6)空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4空间数据挖掘的发展趋势
(2)多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
【关键词】数据挖掘;电子商务系统
1.前言
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术,数据挖掘是一个包含多个处理步骤的知识发现过程,其主要内容包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出等。
把数据挖掘技术应用到电子商务系统中,开发出基于数据挖掘技术的电子商务系统能够加深和加强对电子商务系统数据的分析功能,为电子商务企业管理人员提供电子商务的预期信息,从而能很好的保证电子商务网站的运行效果。
现在电子商务系统主要形式B2C,涉及的数据不仅包括客户在电子商务网站上的交易数据,还包括客户的注册信息数据和商品信息等数据。电子商务系统的数据有如下特点:
(1)数据量大;
(2)数据质量差;
(3)数据种类多。
2.电子商务系统功能模块结构设计
3.数据挖掘管理模块的设计
B2C电子商务数据挖掘管理模块主要通过对电子商务企业当前的和历史的交易数据进行分析。挖掘出其中隐含的知识和从中发现隐含的趋势和规律。它主要包括数据预处理模块、数据挖掘模块和数据挖掘结果显示模块。B2C电子商务数据挖掘系统从电子商务运行商品数据库、客户信息数据库和交易数据库中获取数据,根据数据挖掘算法的需要进行数据预处理,并建立数据挖掘模型,供电子商务企业的用户挖掘时使用。用户只需要输入简单的一些参数,系统就会自动的根据已建立的模型输出预测结果。电子商务挖掘系统体系结构如图2所示。
3.1数据预处理模块
3.2数据挖掘模块
B2C电子商务网站中商品介绍页面的摆放就好比商店里的货架,商品介绍的摆放位置也会影响客户对商品的购买率。而商品之间的关联性一般不是很容易看出来的,一般人很难联想到商品之间的关联性,只有实际上通过对大量的交易历史数据的分析,才可以挖掘出它们之间的关联性。在数据挖掘过程中对关联产品和服务进行深入挖掘,可以发现其中的关联规则,利用关联规则模型进行数据挖掘可以了解客户的购买行为,这对于改进B2C电子商务商业活动的决策很有帮助。例如,可以通过改进商品介绍位置的摆放(把顾客经常同时买的商品摆放在一起),帮助如何规划市场(互相搭配进货)等。而作为B2C电子商务网站。可以针对不同客户特点动态调整网站结构,使客户访问的有关联的网页文件的链接更加直接,让客户更容易访问到自己想要的东西。这样的网站更能吸引客户,提高客户的忠诚度,提高网站的效益。
随着“以客户为中心”的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过对B2C电子商务系统收集的客户的交易数据进行聚类模型挖掘,可以确定不同类万方数据型客户的行为模式,电子商务企业便可以采取相应的营销措施,促使企业利润的最大化。
3.3数据挖掘结果显示模块
4.结论
本文讨论了把数据挖掘技术应用于B2C电子商务系统中,并采用J2EE的B/S架构将其实现,系统采用客户端、中间服务器和后台数据库三层架构。利用数据挖掘技术可以提高B2C电子商务企业现代化管理水平方面发挥着积极的作用,它能够提高B2C电子商务企业对客户管理和商品管理方面信息的准确性和及时性,可以帮助B2C电子商务企业网站的开发人员及时、全面了解B2C电子商务企业网站运营情况和合理安排网页的页面布局,为不同浏览习惯的顾客提供个性化服务,为各项具体工作提供技术、信息支持;有效地减少各种失误并保证B2C电子商务企业网站的各项任务保质保量、按计划完成,从而提高电子商务企业网站的运作效率。
参考文献
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.实用数据挖掘[M].北京:电子工业出版,2004.
[3]廖芹,郝志峰.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
关键词:网络安全;入侵检测;数据挖掘
ResearchofIntrusionDetectionTechnologyBasedonDataMining
ZhaoNan,FengJianlin
(CollegeofComputerandInformationEngineering,LishuiUniversity,Lishui323000,China)
Abstract:Basedonthecharacteristicsofintrusiondetectionsystem(IDS)andtheIDSdataminingtechnology,thedesignofdatamining-basedIDSmodel,istoovercomehighrateofageneralintrusiondetectionsystemfalsealarm.Firstofall,themodeltrainingdataextractfromtherules,andthenusetheserulestodetectnewincursions.Theexperimentalresultsshowthattheuseofdataminingtointrusiondetectionsystemiseffective,rulesupdatingandsystemupdatingfasterandcheaper,detectionratehigher.
Keywords:Networksecurity;Intrusiondetection;Datamining
目前大部分入侵检测采用特征检测的方法,它们由安全专家预先定义出一系列特征模式(此处的特征模
式含义比较窄,如表达式、字节匹配或“特征字符串”,与后面提到的规则不同),用来识别入侵,同时,入侵检测系统需要不断更新自己的模式库以跟上入侵技术发展的步伐,仅仅采用这种入侵检测方法将会带来很多缺陷。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强和误警率低。
一、入侵检测技术简介
入侵检测是对网络系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。入侵检测系统是从多种计算机系统及网络中搜集信息,再从这些信息中分析入侵及误用特征。入侵是由系统外部发起的攻击。误用是由系统内部发起的攻击。所有的IDS的本质都是基于分析一系列离散的、按先后顺序发生的事件,这些事件用于误用模式进行匹配,入侵检测源都是连续的纪录,他们反映了特定的操作,间接反映了运转状态。IDS一般包括三部分:信息的搜集和预处理、入侵检测分析引擎以及响应和恢复系统[1]。
绝大多数入侵检测系统的处理效率低下,不能满足大规模和高带宽网络的安全防护要求。目前使用的主要检测方法是将审计事件同特征库中的特征匹配,但现在的特征库组织简单。导致的漏报率和误报率较高,很难实现对分布式、协同式攻击等复杂攻击手段的准确检测;此外,预测能力严重受限于攻击特征库,缺乏对未知入侵的预测能力。
二、数据挖掘技术简介
三、基于数据挖掘的入侵检测系统
数据挖掘是从海量数据中提取隐含的、以前不知道的、有潜在作用的信息。它利用统计与可视化技术以易于理解的形式发现并表现信息。在入侵检测中,数据挖掘被定义为处理大量在中央位置收集得到的数据,从而察看其规则模式。基于数据挖掘的入侵检测系统(DMIDS)是从训练数据中得到规则模式,用于实时的入侵检测系统中的入侵检测。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强、误警率低[3]。
基于数据挖掘的入侵检测系统原理,DMIDS总体分为两部分:
第一部分是数据挖掘部分,主要采用数据挖掘技术来得出规则库,为后续的检测提供依据;其中包括:训练数据,数据挖掘模块和规则库,
第二部分为入侵检测部分,实时采集数据,处理数据,然后和规则库进行比较,判断当前用户的操作是否合法,并相应的作为响应或恢复机制。该部分主要拥有以下模块:
数据挖掘模块。数据挖掘技术是一种决策支持过程,它主要基于AI,机器学习统计等技术,它能高度自动化地分析原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测出客户的行为。
数据挖掘模块的主要作用就是从训练数据中挖掘正常和异常行为规则,构建规则库,对于不同性质的数据源,这里要求采用不同的数据挖掘算法来发现其中的隐含规律。
DM的技术基础是人工智能,它利用了人工智能的一些已经成熟的算法和技术,例如:人工神经网络、遗传算法。决策树、邻近搜索算法、规则推理、模糊逻辑等DM系统问题利用的技术越多,得出的结果精确性就越高。这主要取决于问题的类型以及数据的类型和规模。
四、结论
由于入侵检测系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性和本身的健壮性。本文对基于数据挖掘的入侵检测系统的信息提取技术作了较全面的研究和介绍,重点研究了启发式的聚类数据挖掘算法,并对其中涉及到的概化分层和聚类算法和关联算法,分类算法等进行了介绍。
参考文献:
[1]孙鑫鸽,赵跃龙.基于数据挖掘的分布式入侵检测系统[J].电子技术应用,2008,3:126-130
关键词:就业信息;数据分析;挖掘技术;研究
中图分类号:TP311.13
随着数据挖掘技术的不断发展和数据管理的广泛运用,数据信息中存在着大量的决策意义,但是数据利用很低,局限于就业率的统计等。学生大学期间,顺利就业是一个非常重要的环节。对学生就业的指导是当今学校所面临的主要课题。在信息数据中找出规律,直接反映一定时期内的整个社会的就业状况、职业动态及其发展趋势。供职业指导人员指导就业工作和择业者选择职业的重要依据。
1数据挖掘的定义和传统数据的区别
大量数据中挖掘或者提取的知识,也就是说把人们数据中潜在隐含的数据中有用的信息转化为知识的过程来运用。数据挖掘与传统的数据分析都是查询、报表、联机运用分析,但是,他们不同的区别在于没有明确假设的前提下去挖掘信息、发现信息、发现其中隐含的知识,所得到的信息应该是具体实用有效的信息。数据挖掘通过预测未来趁势以及行为,做出前瞻的,基于知识的决策[1]。
2了解数据挖掘的基本步骤
数据挖掘的基本步骤主要有以下几个方面,分别是收集数据:收集可以从多个数据源中去收集,并获取资料,然后对数据进行整合;数据选择:分析所有收集到的数据,并决定选择数据和排除数据中无效,无利用价值的数据;数据清洗:检查收集的数据是否满足挖掘的条件,目的是将数据质量提升到符合所选择的分析的需求上去,从而保证数据信息的正确性和一致性;数据的转换:将已有的数据根据挖掘信息分析的要求进行分析和逻辑性的转换;建立模型:选择合适的算法进行合理而准确的验证;结果分析:对挖掘结果进行解释与实际现状相结合进行可视化的分析;知识同化:将分析所得到的知识集成到就业信息的运用当中去,进行决策供毕业生参考。
3数据挖掘中的应用
3.1数据挖掘在WEB中的应用
数据挖掘使用就业网站功能开发是通过就业网页内容的挖掘,主要是针对文本的内容进行挖掘,实现对网页内容的聚类整合,达到对就业信息的分类浏览和检索[2]。对用户所提的问题和历史的记录进行有效的分析扩展,从而提高检索的效率性。运用数据的挖掘技巧进行关键词改进和加权算法,这样就可提高就业信息的传播效果。利用数据挖掘的技术效果建立更深的访客量并加以进行精准的预测模式,从而达到真正智能型的个性化网络服务。
数据的收集是一个比较复杂的过程所涉及的东西也比较广泛,这对于就业信息的挖掘是一件比较困难的事情,从而我们就要学会应用数据应用流程,掌握挖掘的流程并学会运用。数据挖掘流程应用流程如图1所示。
图1数据挖掘流程图
3.2就业市场预测
数据挖掘的主要价值在于通过数据信息从中提取有效的信息内容,从中找其规律,为就业者提供参考数据和借鉴的效果,通过历史就业信息数据的显示作为参考,针对不同专业的就业率、升学率、行业分布比例、地域分布比例等与其他院校进行数据上的比较并进行就业形势的综合分析,从中发现值得总结的信息。另外对历史数据的总结和对用人单位信息的记录,对每年就业率数据的横向比较,结合历史数据的纵向比较,通过对历年的就业地域进行分析情况及其就业层次分布情况,从而做到全面的观察就业的发展状况,形成对市场发展状况进行全面的监控,并为今后的工作提供参考数据。
3.3毕业生分类信息挖掘
由于传统的数据无法满足大家的需求,所以我们就要对数据进行分析提取,学生数据中存在着大量情况,利用这些数据结合当今社会就业的就业形势,以通过数据挖掘的技术对毕业生资料进行构建。统一进行数据化毕业信息资料、并针对性别、专业、特长、技能、就业意向等因素进行分门别类,形成一套可视化信息图系统,从而方便用人单位进行面向主体的信息抽选,最终提高就业效率[3]。
3.4数据挖掘中的反馈进行教学改革
学生的就业不仅仅就意味着教学工作的结束,也是对教学工作的最后一次检验。是通过就业总结来发现教学中出现的问题,从而分析对教学的反馈作用集中体现了数据的挖掘的教学价值和技术性价值。
为实现教学与人才市场相结合,从而保证并充分就业,有必要进行人才培养模式教学内容、教学方法和教学手段进行全方位的调整和改革,进行统一和机制改革[4]。专业设置和社会需求的有机结合、社会适应性与岗位针对性的统一结合,主动学习与社会实践的有机结合,整体的稳定性与适当的灵活性相结合,建立完善的专业预警制度。
4数据挖掘中应注意的问题
5结论
数据挖掘技术的应用在不断的扩展中,也受到了学术界的广泛运用,当前的就业形势越来越严峻,尤其是针对应届毕业生,将数据挖掘运用到就业信息分析上,可以给就业者提供准确的就业内容,减少就业者从业的盲目性,促进教育、就业、社会三者关系的有机融合,从而达到可持续发展。数据挖掘技术要想得到有效的运用,就必须掌握其内涵,分析数据的技巧,从而能够更好的为学生服务。
参考文献:
[1]王晓燕,何月顺,杨文强.基于数据挖掘技术的高校教学方法研究[J].科技经济市场,2009(02).
[2]董芸.数据挖掘与统计分析[J].统计与决策,2010(09).
[3]陈树冬.论开拓高校毕业生就业市场[J].经济研究导刊,2011(19).
关键词:数据库;数据挖掘;研究分析
1前沿
2总体结构
传统的数据挖掘将分为三个主要部分:数据准备、数据挖掘和知识的确认与提炼。本文在构建结构时也基本继承了这几个主要部分,不过因为XML数据库是针对XML文档的特殊数据库,与其它关系型数据库的存储方式有些不同,所以在其中加了XML数据库存储这个部分。新的结构包括四个部分:数据预处理、XML数据库存储、XML数据挖掘和知识表示。基于XML数据库的数据挖掘过程如图1所示。
数据挖掘过程是数据挖掘的核心步骤,不同的挖掘目标采用的挖掘方法和技术都不相同。在XML数据库环境下进行关联规则挖掘就可用到XML数据库提供的特有的技术。XQuery是XML的查询标准,提供了丰富强大的查询功能,用它可以实现传统的关联规则挖掘算法来直接对XML文档进行挖掘分析。使用这种方法不需要对XML文档进行预处理及挖掘后处理,实现起来简单快捷。
3XML数据挖掘
3.1挖掘方案选取
对XML的挖掘包括对XML结构上的挖掘和对XML内容上的挖掘两种[2-5]。XML的内容指的是文档中每个开始标记和结束标记之间的文本部分,对其内容的挖掘其实也就是对标记的值的挖掘。目前,XML结构挖掘研究相对较多,内容挖掘研究较少,这里主要研究的是XML内容挖掘:包括单个XML文档挖掘和群组XML文档挖掘。
XML的内容挖掘主要有三类方案:
第一种是通过一些专门为XML数据或半结构化数据开发的查询语言,如XML-QL,XML-GL,XQuery等,利用其查询功能,嵌入到其他应用程序中,从而获得数据集进行挖掘。这种方法的优点是能够将XML技术与数据挖掘技术紧密结合,且实现起来简便。
第二种是将XML文档的数据结构化,映射到现有的关系模型或对象模型中,从而可以使用较成熟的数据挖掘方法对其进行挖掘。但是XML本身的一些半结构化特点可能会导致在映射过程中产生一些问题。
最后一种解决方法是将XML文档看作是一个文本,进而使用传统文本挖掘技术进行挖掘。如使用矢量空间模型(VSM)将文档空间看作是由一组正交词条矢量所组成的矢量空间,通过统计词频、缩减维数等步骤,达到机器学习、获得知识的目的。但这种方法并没有考虑到XML文档仍存在一些结构化的特征。此外,数据量大、数据过于详细也会导致文档的特征向量巨大,造成挖掘困难。
在XML数据库环境下进行关联规则挖掘就可用到XML数据库提供的对XQuery技术的支持。将XML的查询语言与传统数据挖掘方法相结合来提取XML文档中的关联规则,也就是通过用XQuery来汇总数据集,进而实现挖掘算法。
3.2XML挖掘实现
选用XQuery实现关联挖掘算法来进行挖掘,不需要对XML文档进行预处理及挖掘后处理,实现起来简单快捷。只需要调用XML数据库提供的XQuery引擎,执行相应的XQuery就可以直接得到挖掘出的关联规则。
在X-Hive数据库中提供两种方式来执行XQuery。
方式一:用XhiveNodeIf对象的executeXQuery(Stringquery)方法来执行XQuery语句,它将返回iterator。结果集的每个元素都是XhiveXQueryValueIf对象,还可以将它转换成DOM的节点来进行进一步操作。
方式二:用XhiveXQueryQueryIf对象调用execute()来执行XQuery语句。这种方式可以引入外部参数,通过setVariable方法来绑定参数。
用XQuery实现挖掘算法来挖掘关联规则需要传递参数,这里选用了第二种方式来执行XQuery。调用接口执行XQuery完成数据挖掘的代码如下所示:
ProcedureXQueryXMLMining(StringfileXQueryName,floatminSup,floatminConf)
{
db=GetConnect(userName,userPassword,databaseName)
transaction=db.get(libraryName)
strXQuery=ReadFile(fileXQueryName)
XhiveXQueryQueryIfQuery=Transaction.createXQuery(strXQuery)
mineFilenames=GetFilenames(Transaction)
Query.setVariable("filenames",filenamesInLibrary)
Query.setVariable("minSup",minSup)
Query.setVariable("minConf",minConf)
ReturnQuery.execute();
};
输入参数是保存XQuery挖掘算法的文本文件名、最小支持度和最小可信度。为了增强程序的灵活性,方便XQuery的修改,以及不同XQuery实现算法的替换,将XQuery代码存放在文本文件中。要从文件中提取出XQuery代码,需要传递XQuery所在的文件名。通过GetConnect函数与XML数据库建立连接。由于待挖掘的XML存放在transaction文档集合中,创建文档集合对象transaction与transaction文档集合进行关联。ReadFile函数读取保存在文件中的XQuery代码,并赋值给变量strXQuery。X-Hive数据库通过调用XhiveXQueryQueryIf对象来执行XQuery代码,这里建立一个XhiveXQueryQueryIf对象Query。GetFilenames函数从transaction文档集合中提取待挖掘的XML文档名,用XQuery可直接从XML数据库中读取文档只需要将待挖掘的XML文档名传递给它。通过setVariable方法将待挖掘的XML文档文件名、最小支持度和最小可信度与XQuery代码中的参数绑定。最后,通过调用Query的execute方法执行XQuery代码,并将执行结果返回。
结束语
详细描述了基于XML数据库的数据挖掘过程。在预处理过程中运用DOM和Schema技术对数据进行XML规范性处理;在存储过程中分析了各种XML数据存储方案,并通过XML数据库提供的存储接口将符合规范的数据存储到XML数据库中;在挖掘过程中用XQuery实现挖掘算法直接对XML数据挖掘。
[1]卫金茂,王石,伊卫国.基于XML的数据挖掘.计算机工程与设计,2003,24(10):106~108,125
[2]李由,黄凯歌.XML的数据库存储技术研究.计算机应用研究,2002,19(4):60~62
[3]曹亮,王茜.XML数据在关系数据库中存储和检索的研究与实现.东南大学学报,2002,32(1):124~127
1基于数据挖掘的成绩分析系统的设计要求及目标
成绩分析系统的最终作用就是实现有效决策,从而有效指导学生的学习和就业。这就要求数据挖掘系统可以实现多种数据类型的挖掘任务,比如课程总成绩之间的关系,课程各模块之间的关系等,可以采用序列模式的发现、分类模式的发现、聚类模式的发现、关联规则的发现等等。这就要求系统在设计上应该注重系统功能的完备。
成绩分析系统的好坏,关键看此系统是否能够从已有的数据中实现准确的预测,这就不可避免的要对以往存在大量数据进行存取交互操作,这就要求此成绩分析系统与底层数据库系统紧密藕合,尽可能的使用数据管理系统的各种功能。由于此系统是可以通过网络进行分析处理数据的,所以要很好的支持Internet/Intranet环境,在网络中存取数据对数据的安全性要求很高,所以数据库的设计也是此系统的重要一个环节。软件的使用和开发讲究可移植性和可拓展性,并且数据挖掘技术并不是一成不变的,这要求我们在系统设计和开发的时候充分考虑到系统结构上的可扩展性。
2系统框架及功能设计
成绩分析系统的框架设计要充分考虑系统的特点、系统要求及用户体验,保证系统能够高效、协调的运行处理数据。整个系统将数据预处理模块、用户界面、数据挖掘模块、数据库和外部文件紧密地结合在一起,构成了一个层次结构。在这个分析系统中,主要有用户界面,数据挖掘和处理部件、数据预处理模块和数据库管理模块组成。
2.1用户界面用户界面是一个系统软件的门户部件,主要包括图形界面,web界面和用户任务界面等,其主要提供的功能包括:用户操作任务提交:将用户的操作提交到后台,为用户要处理的数据集进行数据挖掘的预处理,选择要操作的数据库及使用的算法等功能,也包括各类参数的选择。将处理结果反馈给用户,从关联规则的文本形式及树表现形式或是层次结构的表现形式反馈给客户。给用户提供数据挖掘算法的各类参数,属性等供用户选择和修改。
2.2数据预处理模块数据预处理模块主要是对分析的数据进行整理及数据格式转换,将数据库的不同格式的数据转换成数据挖掘技术能够处理的格式,或是批量将数据进行关系型数据的转换,此功能对本系统的扩展性和可移植性至关重要。
2.3数据挖掘模块此模块是学生成绩分析系统的核心部件,主要是根据数据挖掘算法进行分析数据主要利用不同的算法进行数据处理,有关联规则算法,聚类分析算法,预测算法等。
2.4DBMS模块此模块主要是用来数据库管理,可以管理数据库中底层数据,而且还可以管理已经挖掘出来的数据结果,可以为以后增量挖掘做准备。