主成分分析法(PCA)是一种精妙的数据处理技术,旨在从原始的高维特征空间中提取出少数几个相互正交的主成分,这些主成分不仅保留了数据的主要变异信息,还极大地简化了后续分析过程。简单来说,PCA就像是在一个由多个坐标轴构成的复杂空间中寻找一组新的、相互垂直的坐标轴,这些新坐标轴能够最佳地代表原始数据的分布情况。
我们将使用葡萄酒数据集进行主成分分析。
数据包含177个样本和13个变量的数据框;vintages包含类标签。这些数据是对生长在意大利同一地区但来自三个不同栽培品种的葡萄酒进行化学分析的结果:内比奥罗、巴贝拉和格里格诺葡萄。来自内比奥罗葡萄的葡萄酒被称为巴罗洛。这些数据包含在三种类型的葡萄酒中各自发现的几种成分的数量。
#看一下数据head(no)
对数转换和标准化,将所有变量设置在同一尺度上。
#对数转换no_log<-log(no)#标准化log_scale<-scale(no_log)head(log_scale)主成分分析(PCA)使用奇异值分解算法进行主成分分析
prcomp(log_scale,center=FALSE)summary(PCA)基本图形(默认设置)带有基础图形的主成分得分和载荷图
plot(scores[,1:2],#x和y数据pch=21,#点形状cex=1.5,#点的大小legend("topright",#legend的位置legend=levels(vint),#图例显示plot(loadings[,1:2],#x和y数据pch=21,#点的形状text(loadings[,1:2],#设置标签的位置此外,我们还可以在分数图中的组别上添加95%的置信度椭圆。
评价地区的之间的经济发展水平,必须建立适当的指标体系。考虑到地区经济指标的复杂性、多样性和可操作性,本文在此基础上建立了一套较为完整的易于定量分析的地区经济评价指标体系,分别从不同的角度反映地区经济发展特征。本文所建立的指标体系共包括8个指标,分别从经济规模、人均发展水平、经济发展潜力等方面来反映地区经济发展特征。具体指标如下:地区生产总值(万元)(X1)社会消费品零售总额(万元)(X2)工业总产值(万元)(X3)建筑业总产值(万元)(X4)高技术生产总值(万元)(X5)全社会固定资产投资(万元)(X6)人均可支配收入(元)(X7)人均地区生产总值(元)(X8)
本文选取了重庆市38个区县作为样本进行分析,目的在于探索如何基于R统计软件的因子分析和聚类分析方法研究地区经济发展。具体数据如下:
coebaltt(COR,)#Bartlett球形检Bartlett的球形度检验的p值(显著性概率值sig)<0.05,表明通过检验,分布可以近似为正态分布,由此则可以进行因子分析。
基于上述因子得分,可以得出2012年重庆38个区县的经济发展状况如下:1、根据经济实力因子F1得分大于1的依次有渝中区、渝北区、九龙坡区、江北区和万州区,分数分别为4.4211、1.8967、1.7808、1.201、1.2804。说明在经济总体规模和建筑业方面,渝中区、渝北区、九龙坡、江北区和万州区在重庆市的38个区县中是最好的,规模较大,经济实力最强,发展前景很好,经济发展实力雄厚的地区。2、根据经济发展潜力因子F2得分大于1的有沙坪坝区和渝北区,分数分别为3.7052、3.4396。说明在高技术科技和工业方面比较发达,固定资产投资最大,这两个地区都在主城,对外开放程度高,科技创新方面比较好,有自己的工业发展,已基本形成了自己的产业结构,充分发挥了自己的地理优势和资源环境优势,发展潜力较大。
rct.st(hc,k=6,border="red")由树状图可知,可以将重庆各区县按经济中和实力实际情况分为六类:第一类只包括渝中区,渝中区是重庆市的中心城市,是重庆市的政治经济文化中心、基础教育高地、具有特殊的区位优势和突出的战略地位。产业结构的现状特征是第三产业占绝对优势,其中金融业、商贸业以及中介服务业为主导行业,属于经济发展实力雄厚的地区。第二类只包括渝北区,渝北区先后启动了总体规划近65平方公里的重庆科技产业园、重庆现代农业园区、渝东开发区等项目,被市政府命名为"重庆农业科技园区",所以该地区在高技术生产总值贡献很大,而且投资环境优越,且大部分地区有个自己中心商业地带,对外开放程度高,区位优势很明显,产业结构合理,属于经济发展较强的地区。
在此对RuoyiXu对本文所作的贡献表示诚挚感谢,她在重庆大学完成了数据科学与大数据技术专业学位,专注深度学习、数据挖掘、数据分析领域。擅长Python。