机器学习算法k均值聚类舆情研究

k均值聚类算法,是一种无监督算法,该算法的主要作用是将相似的样本自动归到一个类别中。所谓的无监督算法,就是输入样本没有对应的输出或标签,而聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇。k均值聚类简单易懂而且非常有效,但是确定合理的k值和k个初始类簇中心点对于聚类效果的好坏有很大的影响。

1)基本原理

2)k的选择及初始质心

3)k均值的优缺点

1.1k均值聚类算法描述

k均值聚类算法中的一种,其中k表示类别数,是一种通过均值对数据点进行聚类的算法。适用于大样本,但需要事先指定分为k个类。

原理:从n个数据对象任意选择k个对象作为初始聚类中心,对剩余的其他对象,则根据它们与k个聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;再计算每个所获的新的聚类中心(该聚类中所有对象的均值);不断重复这一过程,知道标准测度函数开始收敛为止。

k均值聚类的特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

1.2k均值算法步骤

2.1k值的选取

对于一个给定没有分类的数据集,最后具体应该分为多少类,这确实时一个让人头痛的问题。要使k均值最后分类结果最好,也就是要使k均值最小化,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此,我们可以设计k均值的代价函数为:

而k值在这里取到了重要作用。据统计发现k值的增加,其数据的代价损失是不断变小,如图,我们发现在k=3时,代价函数随着k值变化的幅度显著降低,在k>3之后所带来的作用也没有特别明显,所以我们可以选择k=3作为我们的聚类数目。

但实际应用中,k值的变换规律都不是和上图一样存在突变点,即拐点。那么这时,k值的选择主要还是根据经验以及利用k均值聚类的目的来决定。

2.2聚类中心的初始化

一般,在实际应用中,我们都是采取随机产生k个点作为初始的聚类中心,其原因是,简单快捷。

k-means++算法对于初始化质心的优化策略也很简单,如下:

以下是一组用户的年龄数据

我们将K值定义为2对用户进行聚类,并随机选择16和22作为两个类别的初始质心。

计算距离并划分数据

我们以图的形式展示聚类的过程,在这组年龄数据中,我们选择16和22作为两个类别的初始质心,并通过计算所有用户的年龄值与初始质心的距离对用户进行第一次分类。

通过计算每个用户年龄分别与两个初始质心的距离,这里我们以黑色实心圆点表示两者距离较大,如表2.2.3,第一个数据15,到初始初始质心点16的距离为1,到第二个初始质心22的距离为7,相比之下,15与16的距离更近,近的距离以空心圆点标记。因此15这个年龄被划分到质心点为16的一组中,如果年龄数据点到两个初始质心的距离相等时,可任意划分到这两组中,例如,数据19到16和22的距离都为3,在这里,我们将它划分到了22中。

上表,我们按欧式距离最小,即相似程度最高对数据分为组后,分别计算分组中数据的均值,得分别为15.33和36.25,并以这两个均值作为新的质心。用新的质心代替原有的初始质心,迭代计算每个年龄数据点到新质心的距离,直到新的质心和上一次的质心相同为止。

表2.2.4,以年龄数据点到新质心的距离值完成分组后,计算两组的均值,为18.56和45.9,年龄数据点22到18.56的距离为3.44,到45.9的距离为23.9。因此年龄数据点22分配到质心为18.56的分组中。

这两个均值与上一次的质心结果不一样,故又用新得到的均值代替原来的质心。在新的质心下,计算数据点到新质心的距离,并对比数据点到两个新质心的距离,选择较小的距离值来确定数据点的分组。

表2.2.5,计算出的新的均值为19.50和47.89,与原来的均值不同,故将新均值代替原有均值作为现在的质心。

算法停止条件

开始计算的第一步,我们就说迭代计算每个数据到新质心的距离,直到新质心和原质心相同,算法就结束。使用上一步分组得到的均值19.5和47.89作为新质心,并计算年龄数据点到新质心的距离,以下计算结果。

使用质心为19.50和47.89进行数据分组,并计算每组的均值作为新的质心,从表2.2.6可知,这里的均值和原质心相等,也就是说新质心与原质心相同,都是19.50和47.89。这时算法停止计算,年龄数据点被划分为两类,对应取值区间为15-28和35-65.这就是k均值聚类的一个全过程。

THE END
1.人工智能论文研究探索机器学习与深度学习的前沿应用在当今这个快速发展的时代,人工智能(AI)已经成为科技领域的一个热点话题。随着AI技术的不断进步,它在各个行业和领域中的应用日益广泛,从而激发了大量关于AI论文的研究。以下是对一些最新的人工智能论文研究进行的概述。 机器学习与数据分析 在过去几年中,机器学习技术得到了巨大的发展,这主要归功于大数据和云计算服务https://www.206sk8xl.cn/xing-ye-zi-xun/627985.html
2.机器学习:开启智能未来的钥匙腾讯云开发者社区在风控方面,银行通过大数据技术,监控账户的交易参数,分析持卡人的用户行为,从而判断该持卡人的信用级别。机器学习算法可以分析大量的交易数据,识别异常交易模式,及时发现欺诈行为,保护金融机构和客户的利益。 (四)自然语言处理、图像和视频处理、医疗保健、金融和商业、交通运输、农业等多领域应用 https://cloud.tencent.com/developer/article/2478495
3.物理学中的机器学习:从数据到发现的新范式机器学习(ML)是人工智能(AI)的一部分,致力于开发能够从数据中学习、无需明确编程便能做出预测或决策的算法。过去几十年里,机器学习已经成为多个领域的强大工具,改变了医疗、金融和零售等行业。在物理学中,机器学习的应用正在产生深远影响,它提高了数据分析的效率,推动了模式识别、预测建模,甚至新理论的发现https://baijiahao.baidu.com/s?id=1814759329987375988&wfr=spider&for=pc
4.机器学习算法的进步:从传统到现代机器学习(Machine Learning)是人工智能(Artificial Intelligence)的一个分支,它涉及到计算机程序能够自动学习和改进其表现的方法。机器学习的目标是使计算机能够自主地从数据中学习,而不是被人们明确编程。这种技术已经广泛应用于各个领域,例如图像识别、自然语言处理、推荐系统等。 https://blog.csdn.net/universsky2015/article/details/135809767
5.2020届计算机科学方向毕业设计(论文)阶段性汇报深度学习在视频分析中的应用 在本次汇报中,我将介绍毕设课题选定的视频分析具体任务:时序动作检测(Temporal Action Proposal)的相关内容,包括任务背景、最近研究成果、数据情况以及切入点等。我还将汇报过去一阶段的工作内容和下一阶段的工作计划。 范舟 基于强化学习的推荐与广告合并算法设计 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
6.从零开始:机器学习的数学原理和算法实践本书从数学基础知识入手,通过前3章的介绍,帮助读者轻松复习机器学习涉及的数学知识;然后,通过第4~第13章的介绍,逐步讲解机器学习常见算法的相关知识,帮助读者快速入门机器学习;最后,通过第14章的综合实践,帮助读者回顾本书内容,进一步巩固所学知识。 本书适合对机器学习感兴趣但数学基础比较薄弱的读者学习,也适合作为https://www.epubit.com/bookDetails?id=UB77b8ad3a2522b
7.4种方法教你利用Python发现数据的规律python这样我们就可以发现数据的规律,例如哪些因素会影响购买决策等。需要注意的是,这只是一个简单的示例,实际应用中需要根据具体问题选择合适的机器学习算法和特征工程方法。 到此这篇关于4种方法教你利用Python发现数据的规律的文章就介绍到这了,更多相关Python数据规律内容请搜索脚本之家以前的文章或继续浏览下面的相关文章https://www.jb51.net/article/278111.htm
8.人工智能技术导论——机器学习与知识发现51CTO博客而分别基于这三个要素, 就可以对机器学习进行分类。例如,由于信息有语言符号型与数值数据型之分, 因此基于信息,机器学习可分为符号学习和数值学习; 而基于知识的形式,机器学习又可分为规则学习和函数学习等; 若基于发现的逻辑方法, 则机器学习可分为归纳学习、演绎学习和类比学习等等。 这样的分类也就是分别从“https://blog.51cto.com/u_15127700/4561036
9.Python机器学习基础教程如何衡量应用是否成功? 机器学习解决方案与我的研究或商业产品中的其他部分是如何相互影响的? 从更大的层面来看,机器学习算法和方法只是解决特定问题的过程中的一部分,一定要始终牢记整个项目的大局。许多人浪费大量时间构建复杂的机器学习解决方案,最终却发现没有解决正确的问题。 当深入研究机器学习的技术细节时(本书https://www.ituring.com.cn/book/tupubarticle/19667
10.机器学习及其应用通过脑部扫描发现肿瘤 自动分类新闻 论坛自动标记恶评 基于多性能指标来预测公司下一年的收入 对应用语音命令做出反应 … 机器学习算法基本类型 常见算法 按是否在人类监督下训练分类 监督学习 在监督学习中,用来训练算法的训练数据包含了答案,称为标签。 分类就是一个典型的监督学习,例如垃圾邮件过滤器一些回归算法也可https://www.jianshu.com/p/11d1323d028e
11.算法岗还是工程岗?关于职业选择的一点小思考职业发展以机器学习平台研发工程师-Data进行举例,首先你至少要精通或者熟悉一门编程语言(重点,不要贪杯),其次就是数据结构与算法要学好(这里所谓的学好并不是说你在某某平台刷了多少题,更重要的是要了解算法在生活中的应用场景,比如对于栈这种数据结构,大家在学校里可能就只知道栈可以解决括号匹配问题,但你是否知道你在日常https://ac.nowcoder.com/discuss/995242?type=9&order=0&page=1
12.数字化观察(100)华夏银行吴永飞等:数字金融领域小样本学习技术然而,产业数字金融风控所使用的数据要素情况不同于以往,特别是对公客户场景化、生态化细分后,数据样本量很小,难以满足风控建模的需要;而小样本学习目前在机器学习与数据挖掘领域仍属世界性难题。本文从小样本学习技术创新入手,深入探索数字经济时代下面向产业数字金融的小样本学习应用研究与实践。https://bank.hexun.com/2022-05-31/206058282.html
13.《常用算法之智能计算(三)》:机器学习计算从更广泛的意义上来看,机器学习是人工智能的一个子集。人工智能旨在使计算机更加智能化,而机器学习已经证明如何做到这一点。简而言之,机器学习是人工智能的应用,通过应用从数据中反复学习得到算法,可以改进计算机的功能,而无需进行明确的编程。 在给出机器学习计算各种算法之前,最好是先研究一下什么是机器学习和如何对http://www.kepu.net/blog/zhangjianzhong/201903/t20190327_475625.html