机器学习和数据挖掘的关系

我们第一天学开车的时候一定不会直接上路,而是要你先学习基本的知识,然后再进行上车模拟。

只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。

所以我列了一个机器学习入门的知识清单,分别是机器学习的一般流程、十大算法、算法学习的三重境界,以此来开启我们的学习之旅。

一、机器学习的基本流程

引用大佬的解释:

简单来说,机器学习就是针对现实问题,使用我们输入的数据对算法进行训练,算法在训练之后就会生成一个模型,这个模型就是对当前问题通过数据捕捉规律的描述。然后我们将模型进一步导入数据,或者引入新的数据集进行评估,根据结果的好坏反过来调整算法,形成反馈和优化闭环。整个过程机器在不断的学习、训练和优化迭代,这个也是机器学习强大的地方。

二、机器学习的十大算法

按照不同的目的,我可以将这些算法分成四类,以便你更好的理解。

聚类算法:K-Means,EM

关联分析:Apriori

连接分析:PageRank

1.C4.5

C4.5算法是得票最高的算法,可以说是十大算法之首。C4.5是决策树的算法,它创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。它可以说是决策树分类中,具有里程碑式意义的算法。

2.朴素贝叶斯(NaiveBayes)

朴素贝叶斯模型是基于概率论的原理,它的思想是这样的:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于哪个分类。

3.SVM

SVM的中文叫支持向量机,英文是SupportVectorMachine,简称SVM。SVM在训练中建立了一个超平面的分类模型。

4.KNN

KNN也叫K最近邻算法,英文是K-NearestNeighbor。所谓K近邻,就是每个样本都可以用它最接近的K个邻居来代表。如果一个样本,它的K个最接近的邻居都属于分类A,那么这个样本也属于分类A。

5.AdaBoost

Adaboost在训练中建立了一个联合的分类模型。boost在英文中代表提升的意思,所以Adaboost是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器,所以Adaboost也是一个常用的分类算法。

6.CART

CART代表分类和回归树,英文是ClassificationandRegressionTrees。像英文一样,它构建了两棵树:一颗是分类树,另一个是回归树。和C4.5一样,它是一个决策树学习方法。

7.Apriori

8.K-Means

9.EM

EM算法经常用于聚类和机器学习领域中。

10.PageRank

PageRank起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强。同样PageRank被Google创造性地应用到了网页权重的计算中:当一个页面链出的页面越多,说明这个页面的“参考文献”越多,当这个页面被链入的频率越高,说明这个页面被引用的次数越高。基于这个原理,我们可以得到网站的权重划分。

算法可以说是机器学习的灵魂,也是最精华的部分。这10个经典算法在整个机器学习领域中的得票最高的,后面的一些其他算法也基本上都是在这个基础上进行改进和创新。今天你先对十大算法有一个初步的了解,你只需要做到心中有数就可以了。

三、机器学习的三大境界

1.掌握算法入口出口

第一重境界,将算法本身是做黑箱,在不知道算法具体原理的情况下能够掌握算法的基本应用情景(有监督、无监督),以及算法的基本使用情景,能够调包实现算法。

2.理解原理,灵活调优

3.融会贯通,设计算法

总结

今天我列了下学习机器学习你要掌握的知识清单,只有你对机器学习的流程、算法、原理有更深的理解,你才能在实际工作中更好地运用,祝你在机器学习的路上越走越远。

审核编辑:李倩

原文标题:学习机器学习的最佳路径路?

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)

THE END
1.一分钟告诉你,什么是机器学习导语:机器如何能像人类一样学习? 点击喇叭图标可取消静音 科普中国 是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平 扫一扫 即刻关注 动动手指,分享知识https://www.shkp.org.cn/articles/2024/12/if440189.html
2.机器学习:开启智能未来的钥匙腾讯云开发者社区一、机器学习概述 机器学习作为人工智能的核心方法,通过分析数据中的隐藏规律,让计算机从中获取新的经验和知识,不断提升和改善自身性能,从而像人一样根据所学知识做出决策。 机器学习涉及概率论、统计学、微积分、代数学、算法复杂度理论等多门学科,是一门多领域交叉学科。其应用范围极为广泛,涵盖自然语言处理、图像识https://cloud.tencent.com/developer/article/2478495
3.机器学习人工智能和数据挖掘到底有什么联系?数据挖掘人工智能其中,统计分析和数据库这两个学科没有和机器学习相交,主要是他们俩是单独的学科,是和数据挖掘是相关的。 对于统计分析来说,这算是一个传统学科,在一定程度上,统计分析是可以独立完成一些分析的(不需要借助机器学习)。 什么是人工智能 首先是人工智能:它用于预测、自动化和优化人类历史上完成的任务,例如语音和面部识https://blog.csdn.net/AveryHzzz/article/details/143729244
4.什么是数据挖掘?如何进行数据挖掘数据挖掘涉及多个学科,包括统计学、机器学习、模式识别、人工智能、数据库和可视化技术等。它是通过分析型企业中的重要技术,帮助企业调整市场策略、减少风险并做出正确的决策。数据挖掘的对象可以是任何类型的数据,如结构化数据、半结构化数据和非结构化数据。数据源可以是关系数据库、数据仓库、文本、多媒体数据、空间https://baijiahao.baidu.com/s?id=1779508221728752274&wfr=spider&for=pc
5.数据挖掘和机器学习之间到底什么关系?宇翔rose数据挖掘和机器学习之间到底什么关系? 首先我认为没有必要给两个词划定一个明确的界限,不妨从字面意思理解就足够了。 数据挖掘——首先是有一定量的数据作为研究对象,挖掘--顾名思义,对一些东西进行深度的研究、对比、甄别等工作,最终从中间找到知识和规律,“挖掘”这个词用的很形象。https://www.cnblogs.com/fengyx/p/7659354.html
6.数据挖掘VS机器学习,你了解多少?数据挖掘和机器学习都是有助于模式检测的分析技术,但它们在许多重要方面有所不同。与我们一起阅读,了解更多关于数据挖掘与机器学习之间的关键区别。 什么是数据挖掘? 通过数据挖掘,通常称为数据库中的知识发现,分析大量数据和数据集以提取有意义的见解,帮助企业解决问题、预测趋势、降低风险和发现新机会。数据挖掘者在https://www.fromgeek.com/telecom/509859.html
7.数据挖掘与机器学习有什么关系呢?问答同时数据挖掘要用到数据管理的技术,这就相当于数据挖掘的核心算法来自于机器学习。https://developer.aliyun.com/ask/443727
8.什么是数据挖掘数据挖掘介绍?IBM什么是数据挖掘? 数据挖掘是指利用机器学习和统计分析从大型数据集中发现模式和其他有价值的信息。 随着机器学习 (ML) 的演进、数据仓库的发展和大数据的增长,数据挖掘 - 也称为数据库知识发现 (KDD) - 在近几十年里的应用不断加速。然而,尽管这项技术在处理海量数据方面不断进步,企业领导者仍然可能面临可扩展性https://www.ibm.com/cn-zh/topics/data-mining
9.什么是数据挖掘和KDD·MachineLearningMastery博客文章翻译您了解到机器学习是数据挖掘中使用的工具,数据挖掘实际上是数据库或KDD中知识发现过程中的一个步骤,并且它已经成为术语的同义词,因为它更容易说。 您了解到,当您从事机器学习项目时,您可能正在执行某种形式的KDD流程,其具体目标是解决问题而不是进行发现。 https://www.kancloud.cn/apachecn/ml-mastery-zh/1951996
10.机器学习与数据挖掘的区别有哪些问答机器学习和数据挖掘是两个相关但又不完全相同的概念。以下是它们之间的主要区别:1. 定义和目标:机器学习是一种通过让计算机系统学习数据和模式,从而进行预测、分类或决策的方法。而数据挖掘则是从大规模数据集https://www.yisu.com/ask/63065253.html
11.数据挖掘的定义和解释什么是数据挖掘? 数据挖掘是对大量数据进行筛选以查找可用于特定目的的相关信息的过程。数据挖掘对于数据科学和商业智能都至关重要,它本质上是关于模式的。 一旦收集并存储数据,下一步就是理解数据,否则就毫无意义。数据分析以多种方式进行,包括使用机器学习之类的概念,其中使用复杂的自适应算法来人工分析数据。 https://www.kaspersky.com.cn/resource-center/definitions/data-mining
12.什么是数据挖掘?SAS在数据进行挖掘以发现隐藏的联系并预测未来趋势的过程由来已久。"数据挖掘"这个术语直到 20 世纪初才被创造出来,它有时也被称为"数据库中的知识发现"。而它的基础包括三个相互交织的科学学科:统计学(对数据关系的数值研究)、人工智能(由软件和/或机器显示的类人智能)和机器学习(可以从数据中学习以进行预测的算法https://www.sas.com/zh_cn/insights/analytics/data-mining.html
13.什么是大数据和数据挖掘?数据挖掘是大数据分析的重要组成部分,它可以通过各种算法和技术来发现数据中的模式和关系。数据挖掘主要包括聚类、分类、关联规则挖掘、时序分析、异常检测等技术。聚类是将数据集中的相似对象分组,每个组称为一个“簇”,用于数据的分类和归纳总结。分类是将数据样本分为不同的类别,通过学习已知类别的样本来预测未知样本https://www.cda.cn/view/202592.html
14.一文让你分清楚机器学习,数据挖掘,人工智能明确大数据应用目标之后,我们再看看数据科学(Data Science),数据科学可以理解为一个跨多学科领域的,从数据中获取知识的科学方法,技术和系统集合,其目标是从数据中提取出有价值的信息,它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,人工智能,深度学习,数据可视化,数据挖掘,数据仓库,以及高性能计https://www.jianshu.com/p/9b1d009a1f8c
15.数据分析与数据挖掘课程的主要内容从两条主线开展,一条围绕数据科学的体系:数据收集、数据预处理、数据存储、数据分析、数据挖掘、数据可视化、数据产品等;一条围绕着人工智能的诸多专题方向,简要包括:人工智能的宏观概念,数据分析基础,数据挖掘,机器学习,深度学习,神经网络,统计分析,前沿跟踪等。 https://i.study.uestc.edu.cn/DATAM/menu/teaching-programme