(2)聚类是按照指定的相似性度量标准将数据对象分成相应的类或者簇的过程,它要求同一个类或者簇中的数据对象之间的相似度尽可能高,不同的类或者簇中数据对象高度相异。聚类对于离群点检测、异常行为分析等具有重要的应用。
(3)数据流挖掘在实时监视系统,因特网传输信息,电力供应网,通信网络,传感器等动态环境中产生了大量的数据流,它们是有序的,变化的海量的和潜在无限的。。
(4)序列模式挖掘序列模式挖掘是挖掘频繁出现的有序事件或子序列,在Web访问模式分析、网络入侵检测、天气预报等研究中具有广泛应用。
随着数据挖掘的研究领域不断扩展,一些新的研究领域不断涌现,比如对图、社会网络分析和多关系的数据挖掘,对多媒体、文本、和Web数据的挖掘,分布式数据挖掘,生物数据挖掘DNA基因序列等。
在商场顾客购买行为分析中,通过对历史交易数据进行挖掘来分析客户的购买行为,从而对商场领导层制定相应的促销计划和合理的物流配送政策;网站设计者可以通过对某个网站中各个页面被访问的模式进行挖掘分析,根据挖掘分析结果对网站进行合理架构,不但可以改善浏览网站网民的用户体验,提高网页页面的点击率还可以提升网站Web服务器的效率;生物学家可以通过对DNA序列中碱基对排列模式的进行挖掘分析,对基因遗传,性状分析,疑难病症的治疗和对生命起源的探索等中具有重要意义;通过对某地区历史气象记录的挖掘,可以有效的对自然灾害进行预测,有效的降低自然灾害对人类造成的损失。
1.数据收集。顾名思义就是通过各种信息化系统,将数据收集到数据存储设备中。比如我们图书馆的流通借阅系统把读者的借阅信息记录到数据库中,医生将病人的病例录入医院的信息化管理系统,超市的管理系统收集顾客的购物信息等等。数据收集是个长期的累积的过程。数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,需要做数据准备工作,一般包括数据的选择、净化、推测、转换、数据缩减等。数据准备是数据挖掘的第一步,它是这个过程的核心,数据准备是否做好将影响到数据挖掘的效率、准确率以及最终模式的有效性。
2.数据预处理,数据清理、数据变换、数据规约。在数据收集的过程中,避免不了会收集到一些无效的,不全面的,不具有一般性的数据,还有一些是根数据挖掘的目标没有联系的数据,这类数据要进行数据清洗,即删除之。比如我们收集到的病人的信息中,病人的学历信息对于分析一些疾病的并发症没有用处,可以把病人的学历信息进行删除,仅保留对分析目的有用的信息。然后是数据规约,就是将收集到数据进行格式转换,简要处理,使之成为规范的,标准的,可以用数据挖掘算法进行处理的数据类型,以此来保证数据质量的综合性,易用性和实效性,有助于提高挖掘结果的精度和性能,高质量的数据挖掘结果必然取决于高质量的数据资源。
3.数据挖掘。确定主题和定义数据挖掘任务主题即要进行数据挖掘的目的。
确定好挖掘主题,然后选用适当的数据挖掘算法,对预处理好的数据进行数据挖掘。采用较多的算法有决策树、分类、聚类、粗糙集、关联规则、频繁模式、序列模式等,形成知识的模式模型。4.模型评估。上面得到的模式模型,有可能没有实际意义或没有实用价值,也可能没有准确反映数据的真实意义,甚至在某些情况下与事实相反,因此需要对其进行评估,确定哪些是有效的、有用的模式。5.巩固知识。用户理解的、并被认为是符合实际和有价值的模式模型形成了知识,同时还要注意对知识作一致性检查,解决与以前得到的知识相互冲突、矛盾的地方,使知识得到巩固。6.运用知识。发现知识是为了运用,如何使知识被运用也是数据挖掘的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。数据挖掘的过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。
医疗疾病诊治
比如目的是为了分析患者病历中哪几种疾病并发,一边医生诊断时作为参考,对于患有某种疾病的患者在诊断时,也要提醒他做并发病症的检查,或者提醒患者加强对于并发症的预防。
设想一个场景,有一天你正在家里看电视,门铃响了,你打开门,一个银座超市的送货员带来了一些商品,你惊奇的发现,这些商品正是你最近要准备去购买采购的,这时你只要掏出信用卡刷卡,然后就不用去超市,就得到了想要购买的商品。不要太惊奇,利用数据挖掘技术,这一点完全可以实现。原理是这样的..................
(1)原始数据的积累方面
图书馆数字管理系统引入后,读者的借阅信息就被保存的数据库中,长年累月之后,这些数据就可以作为数据挖掘的对象(数据源或者数据集)。数据挖掘中的数据仓库技术,分布式存储技术,联机处理技术,可以帮助收集,整理,规整一些有价值的信息数据。使用上述技术,可以把全国的图书馆系统进行整合,把全国图书馆借阅信息,读者信息,馆藏信息等进行收集。这些信息的价值量极高,对收集到的信息,进行不同主题的数据挖掘研究,可以得到一系列有价值的信息。比如,可以对国民的阅读现状进行总体把握,增进馆际互借,根据读者需求指导图书出版市场,引导主流文化阅读,提高全民阅读水平进而提高国民素质......
例如:对读者群进行分类,哪一类读者喜欢读哪一类书,利用聚类算法,........................利用数据挖掘聚类后的读者,每当有新书上架的时候,就可以根据聚类后的结果,把不同的书推荐给可能对该书感兴趣的读者,可以进行精准图书推送借阅服务。比如我们的有一套新的基于数据挖掘的ILas系统的话,当一个读者刷一下卡,我们系统就根据读者的卡上的信息,自动分析出该读者可能喜欢的书刊目录。比方说,我们的系统可以通过识别读者的ID信息,从历史数据中挖掘出该读者历史解决记录中历史类书籍借阅较多,或者说某一个作家的书借阅较多,那么他已刷卡的时候,系统可以自动向读者推荐,最近图书馆新近的历史类书籍或者该作家的书。
对某些需求量大、读者借阅率高的资源,根据数据挖掘系统的统计,资源采集人员可以适当增加该资源的副本数,以满足读者的需求。
通过对大量读者借阅情况的分析可以得到哪类书借阅量更大,从而指导有限的资金去购置借阅量相对大的数目。借阅量大的数目购置更多的流通本以满足更多的读者的需要。借阅量小的书,购置较少的流通本,用以丰富馆藏。这样可以达到更有效的资源配置,是有限的资金,有限的书架,有限的馆舍面积和人力资源都能得到最有效的最合理的利用。
(4)在数字图书馆建设上可提供的服务
(5)其他方面
数据挖掘技术还可以对流通记录和检索请求进行分类分析,按资源借出率和检索频次进行排序,对缺失资源进行及时补充装订,对过时资源进行及时剔除下架;对用户借阅的文献资源进行关联分析,对各类文献间的关联性进行分析,为不同学科资源采集工作提供分析和预测报告,为采集人员提供决策支持;对互联网上大量、无序的数字资源进行采集分类,能够高效、有序地丰富图书馆的数字馆藏存储量。