关键词:医学院校;目标驱动;课程设计;毕业论文
一、背景
二、存在的问题
主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQLSERVER2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。
三、目标驱动的教学框架
我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。
参考文献:
>>基于本体的网络舆情观点挖掘方法研究基于热点文件下载的网络舆情信息挖掘方法研究基于网页文本获取的高校网络舆情监控基于OAG循环的网络舆情管理模型研究基于大规模文本数据情感挖掘的企业舆情研究基于文本挖掘的网络媒体报道研究基于模糊神经网络的Web文本挖掘系统基于PDCA循环的预算管理基于PDCA循环的绩效考评基于PDCA循环方法的沥青路面质量动态管理的研究基于数据挖掘的网络舆情预警决策支持系统基于数据挖掘技术的网络舆情智能监测与引导平台设计研究基于Web挖掘的突发事件网络舆情预警研究基于Web数据挖掘的网络舆情分析技术研究基于Web挖掘的突发事件网络舆情预警策略探讨基于数据挖掘技术在网络舆情预测中的应用基于数据挖掘的高校网络舆情分析系统设计与实现基于数据挖掘的舆情观点挖掘研究基于蛙鸣博弈的网络舆情与政府监管的模型浅析基于PDCA循环的绩效管理体系的构建常见问题解答当前所在位置:.
[2]张玉亮.突发事件网络舆情的生成原因与导控策略――基于网络舆情主体心理的分析视阈[J].情报杂志,2012,31(4):54-57.
[3]许鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009,32(3):115-120.
[4]HuaZhao,QingtianZeng.Micro-blogHotEventDetectionBasedonDynamicEventModel.LectureNotesinArtificialIntelligence8041,2013:161-172.
[5]郑军.网络舆情监控的热点发现算法研究[D].哈尔滨哈尔滨工程大学,2007.
[6]陈耘可,李博,郑天翔.PDCA循环在煤炭企业质量标准化建设中的研究与应用[J].煤炭经济研究,2013,33(2):77-79.
[7]辛敏.PDCA理论在护理质量管理中的应用研究[D].硕士学位论文:山西医科大学,2010.
【关键词】大数据生物信息知识提取数据挖掘
1数据挖掘的功能
数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联,包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。
2降维
从降维的角度讲,整个数据挖掘的过程就是一个降维的过程。在这个过程中,需要对数据删除线性关系比较强的特征数据,再用一些算法,如信号分析算法、傅里叶转换、离散小波转换等算法,从数据中提取特征,再对数据做主成分析处理,得到最后的特征,再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。
3分布式数据挖掘解决方案
随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展,以及对大数据挖掘的需求,出现了一批分布式数据挖掘,比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3种类型的数据挖掘算法:分类、聚类(集群)和协同过滤。相比Mahout而言,MLbase更好的支持迭代计算,它把数据拆分成若干份,对每一份使用不同的算法和参数运算出结果,看哪一种搭配方式得到的结果最优。
4大数据下的具体应用实例――生物信息学的应用
生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时,处理仅有计算机辅助的方式存储数据很显然是不够的,生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析,理解数据中所包含的生物学意义。当前生物信息学研究的热点有:
(1)由以序列分析为代表的组成分析转向功能分析。
(2)由对单个生物分子的研究转向基因调控忘了等动态信息的研究。
(3)完整基因组数据分析。
(4)综合分析。
生物信息数据具有如下特点:高通量与大数据量;种类繁多,形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息,要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合,数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析,生物文献挖掘等方面。
参考文献
[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程,2015(08).
[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014(11).
[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学(博士论文),2004(11).
[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学(博士论文),2005(04).
[5]孙勤红.基于梯度采样局部收敛的生物信息大数据挖掘[J].科技通报,2015(10).
作者简介
孙勤红(1979-),女,山东省人。现为三江学院计算机科学与工程学院讲师。研究方向为人工智能、数据挖掘。
沈凤仙(1984-),女,江苏省人。现供职于三江学院计算机科学与工程学院。研究方向为数据挖掘。
有些具有专业技术性的毕业论文写作,的确具有困难性,对于一些工程学科的学生而言,该毕业论文应当是结合设计进行的。
关键词:科研成果管理;决策支持;数据仓库;联机分析处理;数据挖掘
Abstract:Thetraditionalscientificresearchachievementmanagementusesthedatabasetostoretheresultdata.Themultipledatatypesofthescientificresearchachievementandunifiedstoragewaybecometheobstacletoobtainthevalidresultdataindecisionmakinganalysis,simultaneouslythetraditionalscientificresearchachievementsystemcanonlyextracttheresultinformation.Inviewoftheaboveproblems,thescientificresearchachievementmanagementanddecisionsupportsystembasedondatawarehouseisproposed,inwhichthedatawarehouse,onlineanalysisprocessing(OLAP)andassociationruleminingalgorithmareintegrated.Thesystemsupportsthatthemanagementpersonnelcandiscoverthepotentialachievement,evaluatethescientificresearchprojects,andreasonablyallocatethehumanresources.Theassociationrulesofthedatawereminedincollegepaperdatabase.Itisfoundthatpaperquantityandtimedimensionhavesomerelationship,whichconformswiththepracticaltrainingsituation.TheeffectivenessofusingAprioriinthissystemwasverified.
Keywords:scientificresearchachievementmanagement;decisionsupport;datawarehouse;OLAP;datamining
0引言
传统的科研项目管理过程费时费力,且浪费了大量的人力资源。科研过程中产生的有价值的信息,也被这样死板的管理方法给淹没了,人们不能也不愿意从纸质的资料文献中去发现价值。科研管理方式效率低会严重影响到科研项目开发的进度。随着科学技术的快速发展,科研单位虽然对传统方法进行了改进,开始建立管理系统,但是还远远不能满足要求[1]。
1SRAMDSS的需求分析
1.1功能需求
科研成果管理决策支持系统主要面向科研项目的成果进行管理,这些成果包括学术论文、著作、期刊、专利等。数据仓库的应用可以对成果数据采取智能的分析,将成果数据进行归类和按照成果数据的分析要求进行整理,从中发现成果与项目、人员之间的联系和潜在的规律,帮助决策者调整科研定位,做出科学的决策。
基本管理功能要求用户可以利用本系统完成对成果的基本管理,包括成果提交、审核、审批等流程的规范管理,还有对保密项目成果的加密处理,不仅要系统能够保存使用过程中存入的成果,还可以导入外部数据库的成果数据,为数据挖掘功能提供数据基础,对数据的集成程度要求很高,因此需要利用数据仓库存放成果数据[4]。
1.2用户需求
系统的主要角色包括科研员,科研管理员,决策员,数据管理员,系统管理员。
2总体设计
2.1科研成果数据仓库的设计
(1)逻辑模型
(2)物理模型
2.2SRAMDSS功能的设计
为实现科研成果管理科学,全方位管理,设计成果管理,决策支持,用户管理,系统管理四个模块的内容,并且用户在登陆系统之前要进行身份验证。
(1)成果管理模块
成果管理主要包括成果查询,添加成果,申报成果,成果审核,成果加密以及成果导出等功能,系统采用分组加密方式进行加密。
(2)决策支持模块
(3)用户管理模块
(4)系统管理模块
系统管理模块主要是针对系统的权限分配,系统维护以及一些常用工具的设计。不同的用户进行的操作不同,能够看到的信息不同,就要求系统控制权限,建立权限分配制度,有利于对用户权限进行合理的分配也保证了系统的安全运行。系统维护是管理系统中必不可少的关键功能,包括对系统用户数据,成果信息数据等的备份工作,实现数据库的安全管理,管理相应功能结构规范性,为系统的更新与升级提供支持。
3系统实现
3.1基于数据仓库的OLAP模型
OLAP包括了维和度量,在前面建立数据仓库时已经完成。利用SQLServer中的AnalysisServices项目模板建立多维数据集,定义数据源以及建立事实表与维表之间的关系。
OLAP模型对数据仓库中的数据利用MDX进行多维查找,可以有效分析多维数据集。MDX是OLAP的查询语句,语法与结构化查询语言SQL很类似。在成果管理系统中,通过MDX语言把科研员和决策者需要的成果数据查询出来,展现在前台界面里。
利用OLAP模型进行分析,决策者可以依据分析要求,选择更多角度去分析数据,能得到的分析也更多,如下:
(1)由科研成果的类型分布来看整体项目的侧重重点,以及在成果突出领域的发展机会和潜力;
(2)由科研成果参与者和第一申请单位作者与项目之间的关系,可以看到参与者职称水平,技术支持水平对成果完成数量与质量的关系,并不是参与者越多的成果越完善,可以以此作为合理分配人才资源参与项目开发的依据,也可以以此评估参与人员的水平,作为考核参考;
(4)可以利用数据库,对以往成果信息进行分析,由于在传统的数据库中不具备OLAP的功能。
3.2基于数据仓库的关联规则挖掘
(1)数据预处理
(2)算法实现
设置最小支持度min_sup=4,支持度=40%,置信度=80%,通过Apriori算法计算出的关联规则信任度见表2。
(3)结果分析
采用的实验数据来自于论文数据库,由于学校毕业论文按照培养计划有周期性,学术性硕士的培养周期为2.5学年,所以硕士毕业多集中于第一学年3月份左右,工程硕士的培养周期为第二学年9月份,所以对数据的分析结果多集中于上半年。
规则1表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2013年第二学年在5篇左右的支持度为40%,信任度为80%。
规则2表示,在2013年第一学年在5篇以内且2013年第二学年毕业论文在5篇以内的学科专业,则在2012年第一学年在5篇左右的支持度为40%,信任度为80%。
规则3表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2014年第二学年在5篇左右的支持度为40%,信任度为80%。
3.3关联规则说明
由于系统中的测试数据多来自网络和本校的数据库,对关联规则的挖掘也许存在偏差,但是整体提供的关联规则数据信息还是符合实际的。简要介绍以下几点:
(1)选取成果完成人的职称级别和所提交的成果类型与数量作为关联规则挖掘的维度,发现成果完成人职称较低的数量较多,存在关联规则;
(3)对不同高校的成果数量进行关联分析,985与211高校的科研论文,期刊发表数量多具有关联规则。
4界面展示
用户登陆界面:输入正确的用户名和密码登陆系统,用户可以选择“记住我”,在下次进入系统时可以免登陆,若是新用户第一次登陆系统,需要注册,完成注册后即获得登陆权限。
登陆后看到的首页,左侧导航栏显示了主要的功能,成果展示系统中的成果数量以及系统中的成果列表。
5结论
本文在调研了解科研成果管理的决策分析需求的基础上,认真研究了数据仓库的有关技术知识,联机分析处理技术的应用以及数据挖掘关联规则算法的原理。提出了基于数据仓库的科研成果管理决策支持系统。
[1]贺建英.大数据下MongoDB数据库档案文档存储去重研究[J].现代电子技术,2015,38(16):5155.
[2]SUNHongmei,JIARuisheng.Researchontheanalysisanddesignofgeneraltestdatabasemanagementsystem[J].Procediaengineering,2012,29:489493.
[3]ESLAMIPOORR,SEPEHRIARA.FirmrelocationasapotentialsolutionforenvironmentimprovementusingaSWOTAHPhybridmethod[J].Processsafetyandenvironmentalprotection,2014,92(3):269276.
[4]KLAUSSR,NEUBAUERJ,GOETZNEUNHOEFFERF.HydrationkineticsofCA2andCAinvestigationsperformedonasyntheticcalciumaluminatecement[J].Cementandconcreteresearch,2013,43(1):6269.
[5]PENGGY.MarketingdecisionanddecisionsupportsystemdesignbasedonWeb[J].Advancedmaterialsresearch,2013,850:10481051.
[6]赵维宁.运用数据仓库技术构建电信企业经营分析系统[J].中文信息,2014(8):2226.
南京大学的周志华教授曾专门撰文论述了数据挖掘和机器学习以及数据库之间的关系,他提出:数据挖掘可以视为机器学习和数据库的交叉,主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
组成数据挖掘的三大支柱包括统计学、机器学习和数据库领域内的研究成果,其他还包含了可视化、信息科学等内容。不同的教材从不同的方面结合其基础学科知识讲述数据挖掘技术,不同专业和技术背景的学生或数据挖掘研究人员和应用人员可以根据自身的专业方向选择不同的数据挖掘切入点。下面简单归纳目前比较主流的数据挖掘和机器学习方面的教材。
数据挖掘:概念与技术
原书名:DataMining:Conceptsandtechniques
作者:JiaweiHan
数据挖掘:实用机器学习技术(原书第2版)
原书名:DataMining:PracticalMachineLearningToolsandTechniques
作者:IanH.Witten,EibeFrank
数据挖掘原理
原书名:PrinciplesofDataMining
作者:DavidJ.Hand
很多学科都面临着一个普遍问题,即如何存储、访问异常庞大的数据集,并用模型来描述和理解它们。这些问题使得人们对数据挖掘技术的兴趣不断增强。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。本书把信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,是第一本真正跨学科的教材。主要从统计学的角度来解析数据挖掘以及其与统计的关系。其中如建模、测量、评分函数、模型等术语都是从统计者的角度出发。书中并没有具体说明KDD与DM之间的关系,比较适于统计系和数学系的学生采用。
机器学习
原书名:MachineLearning
作者:TomMitchell
本书是CMU等许多国际知名大学机器学习课程的教材。目前发表的各种机器学习专著或论文基本都会引用这本书的内容。作者TomMitchell是CMU的教授,美国人工智能协会的主席,《机器学习》杂志和“国际机器学习”年度会议的创始人,他在ML领域久负盛名。本书也是最经典和采用率最高的机器学习教材。本书需要的数学基础也很少,但对必要的背景介绍相当丰富,非常适合初学者。