酿酒葡萄的分级对酿酒工艺和葡萄酒评价有重要意义。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映酿酒葡萄的质量。所以,根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级是较为合理的。
对酿酒葡萄进行分级,首先单独考虑葡萄的理化指标和葡萄酒质量对酿酒葡萄评价的影响,利用主成分分次和聚类分析求出分级结果,其次综合考虑以上两个因素,通过加权得到综合评价指标,再利用聚类分析求出分级结果。最后对三种分级结果作比较分析。
1.模型的假设与说明
1)只考虑酿酒葡萄的一级理化指标的影响。
2)葡萄酒中的糖类、醇类、酸类物质均来自于对应的酿酒葡萄,且含量相对相等。
2.模型的建立与求解
2.1根据酿酒葡萄的理化指标对酿酒葡萄分级
由于酿酒葡萄的理化指标数目很多,因此只考虑一级指标的影响,并且针对同一指标测试多次的结果,取其平均值作为该指标的最终结果。
(一)基于主成分分析法的综合评价方法
(1)理化指标处理
(2)主成分分析
结合主成分数量确定原则,选择前7个主成分,累计方差贡献率为84.915%,对应的特征根以及贡献率见下表2-1:
表2-1
(3)综合评价:
通过主成分公式可以计算出第个红葡萄样品的第个标准化以后的主成分得分,记为。
理化指标综合评价公式:
可得27个红葡萄样品的理化指标综合得分,得分结果省略。利用理化指标综合得分的高低,给27个红葡萄样品进行排名,优到劣顺序为:23、9、3、2、19、20、17、24、21、22、13、16、26、10、14、5、27、6、8、7、4、11、25、1、18、15、12.
(二)Q型聚类分析
考虑到无法确定类别数,因而采用HierarchicalCluster(系统聚类法)中的Q型样品分析。
问题将27个红葡萄样品的理化指标综合得分作为变量,进行聚类。根据分类结果并且通过查找资料,参考意大利、法国等葡萄酒生产大国的分类标准[4]将27种红葡萄样品分为四个等级。
分级结果如下为:A等:3923;B等:1,2,11,21;C等:4,5,6,7,8,10,12,1314,15,16,17,18,19,20,22,24,27;D等:25,26.
2.2根据葡萄酒的质量对酿酒葡萄分级
题目中葡萄的主要目的是酿酒,因此从酿酒角度而言,葡萄酒的质量直接提现了酿酒葡萄的等级。而评定葡萄酒质量的一个关键指标就是有资质的评酒员的打分结果。根据打分结果对红葡萄进行Q型聚类分析。
分级结果为:A等:23;B等:2,3,9,17,19,20,21,22,24;C等:4,5,6,7,8,10,11,1314,16,25,26,27;D等:1,12,15,18.
2.3综合考察两要素对酿酒葡萄的分级
首先分析两个要素与酿酒葡萄的关系。酿酒葡萄的理化指标从理论上分析了葡萄的成分,葡萄酒的质量从使用角度反映了酿酒葡萄的质量。因此对于酿酒葡萄的分级而言,葡萄酒质量的影响要大于酿酒葡萄的理化指标。
2.3.1采用综合评判法对葡萄分级
首先利用2.1葡萄样品的理化指标排名结果和葡萄酒质量专家打分排名结果分别进行评分:第一名27分,第二名26分,第三名25分…..第二十七名1分。综合评分公式:
其中:为综合评分,为葡萄酒质量评分,为理化指标评分,,为质量评分系数,,为理化指标评分系数。
得到红葡萄样品的综合评分结果。将27个红葡萄样品的综合评分作为变量,进行Q型聚类分析.
分级结果如下为:A等:2,3,9,23;B等:17,19,20,21,22,24;C等:1,5,6,8,10,11,1314,16,26;D等:4,7,12,15,18,25,27.
2.4结果分析
首先考虑根据理化指标和葡萄酒质量的分级结果,可以发现大部分红葡萄酒的分级结果并没有发生改变,只有1号红葡萄分别分在B等和D等,差两个等级。只有3,9,11,12,17,18,19,20,22,24,25,26少数红葡萄在相邻两级之间变化。其余大部分红葡萄两次分级结果相同。
其次考虑综合评分的分级结果,发现综合理化指标和质量指标之后,分级更加均匀。并且这三种分级方法的结果均相差不大,比较稳定。
3.模型的优点
本模型综合利用了主成分分析法、综合评价模型、聚类分析等数学方法,提供了一种较好的酿酒葡萄的分级方法。
结束语
以上是讨论酿酒葡萄分级方法的模型建立,运用该模型解决实际问题的步骤及套用2012年全国数学建模A题数据得到的结果,希望对酿酒业有所帮助。
参考文献:
[1]陈超,邹滢,SPSS15.0常用功能与应用实例精讲[M],北京:电子工业出版社,2009。
[2]陈桂元,黄己立,数学建模[M],安徽:中国科学技术大学出版社,2008。
[3]姜启源,谢金星,叶俊,数学模型[M],北京:高等教育出版社,2003
关键词:R软件;系统聚类分析;多元统计
中图分类号:F49文献标识码:A
引言
多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,其中最常用聚类分析方法,由于多元统计聚类分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。
在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS,等等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍R软件在多元统计聚类分析中的应用。
一、系统聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功的聚类分析为系统聚类法,系统聚类法的基本思想为先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其他类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。
系统聚类法的基本步骤:
1、计算n个样品两两间的距离。
2、构造n个类,每个类只包含一个样品。
3、合并距离最近的两类为一新类。
4、计算新类与各当前类的距离。
5、重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
6、画聚类谱系图。
7、决定类的个数和类。
系统聚类方法:1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。
二、基于R语言的系统聚类分析程序
R软件实现系统聚类的程序如下:
hclust(d,method="complete",members=NULL)
其中,d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法average、重心法centroid、中间距离法median、最长距离法complete、最短距离法single、离差平方和法ward等,默认是最长距离法complete。
三、应用举例
表1是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。(表1)
R语言程序如下:
>X
>row.names(X)
>d
>hc1
>hc2
>hc3
>hc4
>opar
>plot(hc1,hang=-1);plot(hc2,hang=-1)
>plot(hc3,hang=-1);plot(hc4,hang=-1)
输出结果(图1)
结果分析
由图1可以看出,不同方法的分类大体一样,结合山东省具体实际情况,最长距离法分类效果较好。
在系统聚类分析中,利用R软件是最方便、最简单、最易学的,而且根据不同的情况,可以自己修改别人的程序,比较方便;可以在处理多元数据聚类分析中,利用R软件具有很大的优势。
(作者单位:菏泽学院)
主要参考文献:
[1]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.
[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.
[关键词]产业结构;经济增长;灰色系统
1聚类分析和灰色模型简介
1.1聚类分析
聚类分析是基于所研究的样品或指标(变量)之间存在程度不同的相似性的统计分类方法。即根据一批样本的多元观测指标,寻求能够度量相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品聚合完毕。聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类。
为了克服原始数据由于量纲不同对聚类结果产生不合理的影响。分析时首先对原始数据进行数据的标准化变换。定义距离的方法很多,本文采用欧氏距离(EuclideanDistance)。
1.2灰色模型
灰色理论将随机变量视为一定范围内变化的灰色量,将随机过程当做一定范围,一定时区内变化的灰色过程。灰色预测法对含有不确定因素的系统进行预测。灰色预测通过鉴别系统因素之间的相异程度,并对原始数据进行生成处理来寻找系统的规律,生成有较强规律性的数据序列,然后建立相应微分方程模型,从而预测事物未来的发展趋势。灰色预测主要以GM(1,1)模型为基础进行建模、检验与预测。
2实证分析
2.1产业结构描述性分析
纵向分析:按照国民经济统计关于产业划分标准,2008年山东省的第二、第三产业是主导产业,产值份额分别为56.97%和33.37%。第一产业比重较小(9.66%)。同比2001―2008年的数据,三大产业中,第二和第三产业呈现逐年增长趋势,而第一产业占比不断下降,表明山东产业结构的演化进程。虽从2002年,统计将农林牧渔服务业划归第一产业,但第三产业占比保持平稳,说明山东第三产业发展迅速。
横向分析:山东省与其他沿海发达省市相比,有明显差距。2008年山东省第三产业占GDP比重33.37%,而北京市则高达71.4%,上海市也达到53.7%;同时上海市第一产业仅占0.8%,而山东省却高达9.66%。
2.2灰色模型及预测
下面采用GM(1,1)模型对山东省产业结构演化进行预测。由下表的2004―2008年山东省GDP和三次产业构成数据。
相对误差均小于0.5%,说明模型拟合精确度很高,预测模型可信度较高,可用于实际预测。
3结论与建议
基本结论:从山东省三次产业占GDP比重分析,整体产业结构正处于加速调整时期。目前第二产业最大,第三产业次之,第一产业最低。2008年第三产业比重33.37%,仅比全国平均水平高出0.3个百分点,与全国经济地位明显不符。今后十年的产业发展仍将呈现“二三一”态势。通过聚类分析,可清晰发现各地市产业发展水平的不均衡性,明显的可以分为四个不同的层次。中西部内陆城市与沿海地区城市的差异有拉大趋势。因此协调全省不同区域的产业结构调整步伐将是一个重大课题。通过灰色模型的建模与预测分析,无论是从总量上还是比重上,第二产业都有上升趋势。因此,加快制造业发展,带动山东省经济进入新一轮的高增长期,势在必行。
对策和建议:第一,制定科学的产业结构发展政策。山东省应大力对政策环境进行进一步改善,加快经济体制改革的步伐。使得产业政策在巩固和发展宏观调控成果方面发挥积极作用。产业发展与结构调整应建立在更广泛调研与计量分析的基础上,从而使调整更有针对性。既要增强产业政策在宏观调控中的作用,同时又要加强产业政策的协调配合,避免部分地区低水平重复建设现象。
第二,改造传统产业、大力发展高新技术产业。由于存在农村劳动力转移缓慢、农业劳动力效率不高等问题,山东第一产业应根据市场的需求,调整供求结构。利用山东省广阔的海域,大力发展海水养殖业;根据林业自身特点,扭转林业产值下滑的趋势。山东省应加快以消耗大量原材料、能源为主的资源密集型产业结构向知识、技术密集型产业结构方向发展,大力培植高新技术产业,运用高新技术加快改造传统产业,实现清洁生产。
第三,加速创新型人才引进。知识创新和技术创新、管理创新和制度创新,这一切都依赖于具有高知识水平的、有创新能力的人。全省应有统一规划,构建起适合山东省当前与长远经济、社会发展的人才产出、引进、使用和流动的新体制,以推动面向知识经济的全省经济、社会的全面发展。政府应制定必要的引进人才优惠政策,为产业调整与发展储备人力资源。
[1]薛薇.统计分析与SPSS的应用[M].北京:中国人民大学出版社,2008.
关键词:近红外光谱;冰温贮藏;牛肉;品质;校正模型
Abstract:Inthisexperiment,arapidquantitativedetectionmethodwasproposedbynearinfraredspectroscopy(NIR)forbeefqualityduringicetemperaturestorage.ThecalibrationmodelsofbeefpH,waterloss,TVB-Nandcolorvalue(L*/a*)wereestablishedbyNIRtechniqueallowingthesimultaneouspredicationofseveralbeefqualityindicators.Thecorrelationcoefficient(R2)ofthecalibrationmodelswereallabove0.70andtheR2valuesforthepredictedandactualvalueswereallabove0.90.Thecalibrationmodelshadhighpredictionaccuracy.Furthermore,clusteranalysiswasusedtocategorizethenearinfraredspectraldataofbeefstoredfordifferentdurations.Theresultsshowedthatbasedonthenearinfraredspectraldatameatfreshnesswascategorizedwell.NIRissuitableforrapidandnon-invasiveestimationbeefqualityandfreshnessasanalternativetothetraditionaldetectionmethod.
Keywords:nearinfraredspectroscopy(NIR);controlledfreezingpointstorage;beef;quality;calibrationmodel
doi:10.7506/rlyj1001-8123-201503006
目前,对牛肉品质指标的检测仍较常采用感官检验、理化检验与微生物学检验相结合的综合检验方法,得出的感官检验结论会因感觉器官的局限性、人的主观性造成出入[1-6],而理化检验操作复杂,测定过程耗时、耗力,不易进行大批量的快速检测[3-6],食品行业与检验部门迫切需求一种快速、非破坏性和客观的检测技术。其中,近红外光谱技术(nearinfraredspectroscopy,NIR)的应用,很好地解决了传统检测方法带来的弊端[3]。
近红外光谱分析技术是利用物质含氢基团振动的合频和倍频吸收信息进行物质的定性和定量分析的一种快速检测方法[4,6]。由于食品中的大多数有机化合物如蛋白质、脂肪、有机酸、碳水化合物等都含有不同的含氢基团,不同的基团在近红外区域具有不同的吸收位置,据此可对物质进行定性分析,根据吸收强度和物质含量的线性关系,又能对物质进行定量分析。具有分析速度快、信息量大、多组分同时测定、无损样品、无污染等优点,符合当前工业生产的需求,目前在食品领域已应用于鲜肉及肉制品中营养成分和品质的检测[4,6-11]。
1材料与方法
1.1材料与试剂
屠宰12h内的鲜牛霖肉(冷链贮藏)市购。
稀硫酸、碳酸钾、硼酸、甘油、阿拉伯胶、甲基红、次甲基蓝、乙醇均为分析纯。
1.2仪器与设备
数显温度计天津市科辉仪表厂;JY3001型电子天平、JA-1104N型电子天平(感应量为0.0001g)、HJ-6A型多头磁力搅拌器江苏省金坛市文华仪器有限公司;PH100型笔式pH计上海三信仪表厂;双夹板压力计实验室自制;WSC-S测差计上海精密科学仪器有限公司;NIT-38近红外光谱分析仪澳大利亚NIRTechno1ogy公司。
1.3方法
1.3.1肉样处理
将鲜牛霖肉(冷链贮藏,样品采至同一头牛同一部位),采用内装冰袋的泡沫保温箱4℃运回,去除附着的脂肪和结缔组织,平均分割成小份总共11份,每份100g(6.5cm×4cm×4cm),不进行包装处理,置于温度为D1℃(冰温)冰箱变温区贮藏(冰箱内相对湿度70%)。各项指标每2d测定1次,每次测定时从每组中各取1份测定肉的各项指标,每项指标重复测定3次,结果取平均值,共连续测量21d。
1.3.2肉样品质指标测定
pH值测定[12-13]:采用电表pH计测定法,将pH计直接插入被检肉新鲜切面上读取pH值,依次取3个测试点。
失水率测定[13]:将肉样切为1.0mm厚度,用直径2.523cm圆形取样器切取肉样,用感量为0.0001g天平称质量,然后将肉样上下各垫6层滤纸,置于35kg压力计上压制5min,撤除压力后立即称质量,计算失水率。
TVB-N测定:按照GB/T5009.44―2003《肉与肉制品卫生标准的分析方法》中微量扩散法测定样品的TVB-N测定。
色差值测定[12]:将肉样切成厚薄均匀的薄片,放入WSC-S测差计样品池中,铺平,测定其L*值、a*值。
1.3.3样品近红外光谱采集
将肉样切成厚薄均匀的薄片,放入厚度为15mm的样品池内,保持样品均匀铺平,在720~l100nm近红外光谱区范围内进行透射扫描,每次测定对每份样品连续扫描3次,取平均值[4],以获得样品每个检测日的近红外光谱数据,共连续测量21d。
1.3.4近红外光谱数学模型的建立
将样品集分成校正集和验证集,采用一阶导数(firstderivative,FD)、二阶导数(secondderivative,SD)、标准正态变换(standardnormalvariate,SNV)和多元散射校正(multiplscattercorrection,MSC)等方法对所获得的近红外光谱数据进行预处理,利用分析建模软件NTAS(NIRTechnologyAustraliaSoftware)通过偏最小二乘法(partialleastsquaresregression,PLS)对校正集样品的pH值、失水率、TVB-N、色差值等肉质指标建立近红外光谱校正模型[4]。
1.3.5模型的验证
选用未参与校正模型建立的样品组成验证集,将验证集样品的近红外光谱数据代入到校正模型中,通过校正模型计算获得样品样品肉质指标的预测值,最后根据预测值与样品肉质指标的真实值(实验值)的接近程度,来衡量校正模型预测值的准确度[14]。
1.3.6聚类分析
聚类分析是通过找出指标之间能代表其相近程度的统计量,以这些统计量为划分类别的依据,找出指标间的共性和变化规律。分类过程中,首先将差异较小的聚合为一类,然后根据指标间的亲疏程度,将差异最小的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。如此不断重复比较直至将所有指标聚合分类完毕[6,15-17]。采用可用聚类分析的方法研究不同贮藏阶段肉的近红外光谱的变化规律和分类结果。
1.4数据处理
使用SPSS19.0进行数据分析。对pH值、失水率、TVB-N、色差值等数据进行求平均值和标准偏差处理,并且对每个测定参数进行ANOVA分析。
2结果与分析
2.1牛肉样品的近红外光谱分析
2.2近红外光谱模型的建立
近红外光谱谱线包含复杂的化学信息,存在样品不同组分之间相互干扰、谱峰相互掩盖等问题。另外,还包含一些与待测样品性质无关的因素带来的干扰,如样品装样均匀度、装样状态或仪器状态等,都会导致光谱产生基线漂移或偏移、背景干扰等现象。因此在建立校正模型之前对近红外原始光谱进行预处理是很有必要的,常用的预处理方法有光程校正,如MSC和SNV;微分处理,如FD和SD[18]。
2.3近红外光谱模型的验证
2.4聚类分析
由图3可知,样品集21d的光谱可明显的分为2类,第1类是样品集前15d的光谱值;第2类为17~21d的光谱值。从第1类分类结果看,第1~5天的数据与第7~15天的数据分成两个小类。由聚类分析的结果可推测出,前5d样品处于新鲜程度变化的初期,7~15d为腐败变化的过渡期,最后17~21d样品加速腐败,故光谱明显区别于前15d的情况。
牛肉变质是一个渐进的过程,牛肉从新鲜到次鲜再到变质的变化,就是肉中成分在逐渐腐败变性的原因。比如汁液流失导致的水分及水中可溶性物质被带出、碳水化合物的消耗、蛋白质的分解、脂肪的氧化,这些物质成分发生的变化,都能导致肉的近红外光谱吸收系数、散射系数发生改变。在不同的贮藏阶段对肉进行光谱扫描,光谱信息中将携带吸收系数、散射系数的变化特征,从而可以实现对肉新鲜度的分类。由实验结果可知,利用近红外漫反射光谱对牛肉的新鲜程度有着较好的分类结果。
3结论
利用聚类分析的方法对不同贮藏阶段肉品近红外光谱的数据进行了分类处理,聚类分析的结果表明近红外反射光谱对牛肉的新鲜程度有着较好的分类结果,为近红外光谱快速非破坏性的检测肉品新鲜度提供了进一步的依据。与传统的化学分析方法相比,该技术可快速、非破坏评价牛霖肉的肉品质及新鲜程度。
[1]鲜于建川.冷却牛肉质量评定系统研究与开发[D].长春:吉林大学,2002.
[2]庄玉亭,赵月兰.肉品新鲜度检测方法[J].河北科技大学学报,1999,20(2):63-65.
[3]徐广通,袁洪福,陆婉珍.现代近红外光谱技术及应用进展[J].光谱学与光谱分析,2000,20(2):134-142.
[4]陈育涛,朱秋劲,卢开红,等.近红外光谱对特征部位牛肉的分析[J].肉类研究,2012,26(3):34-38.
[5]侯瑞锋,黄岚,王忠义,等.肉品新鲜度检测方法[J].现代科学仪器,2006(5):76-80.
[6]侯瑞锋,黄岚,王忠义,等.用近红外漫反射光谱检测肉品新鲜度的初步研究[J].光谱学与光谱分析,2007,26(12):2193-2196.
[7]WANGWenbo,PALIWALJ.Near-infraredspectroscopyandimaginginfoodqualityandsafety[J].SensingandInstrumentationforFoodQualityandSafety,2007,1(4):193-207.
[8]PRIETON,ANDRESS,GIRALDEZF,etal.Potentialuseofnearinfraredreflectancespectroscopy(NIRS)fortheestimationofchemicalcompositionofoxenmeatsamples[J].MeatScience,2006,74:478-496.
[9]LEROYB,LAMBOTTES,DOTREPPO,etal.Predictionoftechnologicalandorganolepticpropertiesofbeeflongissimusthoracisfromnear-infraredreflectanceandtransmissionspectra[J].MeatScience,2004,66:45-54.
[10]TOGERSENG,ARNESENJF,NILSENBN,etal.On-linepredictionofchemicalcompositionofsemi-frozengroundbeefbynon-invasiveNIRspectroscopy[J].MeatScience,2003,63:515-523.
[11]SHACKELFORDSD,WHEELERTL,KOOHMARAIEM.Developmentofoptimalprotocolforvisibleandnear-infraredreflectancespectroscopicevaluationofmeatquality[J].MeatScience,2004,68(3):371-381.
[12]许倩,朱秋劲,叶春,等.低场核磁共振分析冰温牛肉中不同状态水分变化[J].肉类研究,2013,27(5):17-21.
[13]周永昌,王文升,等.畜产品加工实验指导[M].北京:中国农业出版社,1999:55-56.
[14]ALOMARD,GALLOC,CASTANTEDAM,eta1.Chemicalanddiscriminantanalysisofbovinemeatbynearinfraredreflectancespectros-copy(NIRS)[J].MeatScience,2003,63(4):441-450.
[15]肖宜滨.聚类分析的理论及其应用[J].江苏统计,2001(11):13-15.
[16]王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328.
[17]郭培源,林岩,付妍,等.基于近红外光谱技术的猪肉新鲜度等级研究[J].激光与光电子学进展,2013,50(3):180-186.
[18]刘炜,吴昊F,孙东东,等.近红外光谱分析技术在鲜鸡肉快速检测分析中的应用研究[J].中国家禽,2009,31(2):8-11.
[19]LOMIWESD,REISMM,WIKLUNDE,eta1.Nearinfraredspectros-copyasanon-linetoquantitativelydetermineglycogenandpredictultimatepHinprerigorbovineM.1ongissimusdorsi[J].MeatScience,2010,86(4):999-1004.
一、引言
所谓数据挖掘是指从大规模的数据中抽取隐含、未知、有潜在使用价值的规则的过程。作为一门交叉学科,数据挖掘集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习以及人工智能等。广义地说,所有从海量数据中发现新的规律的方法都可以统称为数据挖掘技术。
1.关联分析与序列分析
2.相似性查找
3.聚类分析
聚类分析的目的是把整个目标数据分成多个不同的簇,使得每个簇中的数据尽可能相似,而不同簇中的数据具有明显的差别。在金融领域,聚类分析对于板块研究、投资组合模型的构建以及客户交易模式研究等都有着重要的意义。