一文读懂什么是机器学习

世界充满了数据——由人和计算机生成的图像、视频、电子表格、音频和文本充斥着互联网,将我们淹没在信息的海洋中。

传统上,人类分析数据以做出更明智的决策,并设法调整系统以控制数据模式的变化。然而,随着传入信息量的增加,我们理解它的能力下降,给我们带来了以下挑战:

我们如何使用所有这些数据以自动而非手动的方式推导意义?

这正是机器学习发挥作用的地方。本文将介绍:

什么是机器学习

机器学习算法的关键要素

机器学习是如何工作的

6个真实世界的机器学习应用

机器学习的挑战和局限性

这些预测是由机器从一组称为“训练数据”的数据中学习模式做出的,它们可以推动进一步的技术发展,从而改善人们的生活。

机器学习是一个概念,它允许计算机自动从示例和经验中学习,并在没有明确编程的情况下模仿人类的决策。

机器学习是人工智能的一个分支,使用算法和统计技术从数据中学习并从中得出模式和隐藏的见解。

现在,让我们更深入地探索机器学习的来龙去脉。

机器学习中有数以万计的算法,可以根据学习风格或所解决问题的性质进行分组。但每个机器学习算法都包含以下关键组件:

以上是机器学习算法的四个组成部分的详细分类。

描述性:系统收集历史数据,对其进行组织,然后以易于理解的方式呈现。

主要重点是掌握企业中已经发生的事情,而不是从其发现中得出推论或预测。描述性分析使用简单的数学和统计工具,例如算术、平均值和百分比,而不是预测性和规范性分析所需的复杂计算。

预测性:描述性分析侧重于分析历史数据并从中得出推论,而预测性分析侧重于预测和理解未来可能发生的事情。

通过查看历史数据来分析过去的数据模式和趋势可以预测未来可能发生的事情。

规范性:描述性分析告诉我们过去发生了什么,而预测性分析告诉我们通过从过去学习未来可能发生的事情。但是,一旦我们对可能发生的事情有了洞察力,应该做什么呢?

这就是规范性分析。它帮助系统使用过去的知识对一个人可以采取的行动提出多项建议。规范性分析可以模拟场景并提供实现预期结果的途径。

ML算法的学习可以分为三个主要部分。

机器学习模型旨在从数据中学习模式并应用这些知识进行预测。问题是:模型如何进行预测?

这个过程非常基础——从输入数据(标记或未标记)中找到模式并应用它来得出结果。

机器学习模型旨在将自己做出的预测与基本事实进行比较。目标是了解它是否在朝着正确的方向学习。这决定了模型的准确性,并暗示了我们如何改进模型的训练。

该模型的最终目标是改进预测,这意味着减少已知结果与相应模型估计之间的差异。

该模型需要通过不断更新权重来更好地适应训练数据样本。该算法循环工作,评估和优化结果,更新权重,直到获得关于模型准确性的最大值。

机器学习主要包括四种类型。

在监督学习中,顾名思义,机器在指导下学习。

这是通过向计算机提供一组标记数据来完成的,以使机器了解输入的内容以及输出应该是什么。在这里,人类充当向导,为模型提供带标签的训练数据(输入-输出对),机器从中学习模式。

一旦从以前的数据集中学习了输入和输出之间的关系,机器就可以轻松地预测新数据的输出值。

我们可以在哪里使用监督学习?

答案是:在我们知道在输入数据中查看什么以及我们想要什么作为输出的情况下。

监督学习问题的主要类型包括回归和分类问题。

无监督学习的工作方式与监督学习的工作方式恰恰相反。

它使用未标记的数据——机器必须理解数据,找到隐藏的模式并做出相应的预测。

在这里,机器在独立地从数据中推导出隐藏模式后为我们提供新发现,而无需人工指定要寻找的内容。

无监督学习问题的主要类型包括聚类和关联规则分析。

强化学习涉及一个代理,该代理通过执行操作来学习在环境中的行为。

根据这些行动的结果,它会提供反馈并调整其未来的路线——对于每一个好的动作,代理都会得到积极的反馈,而对于每一个坏的动作,代理都会得到负面的反馈或惩罚。

强化学习在没有任何标记数据的情况下进行学习。由于没有标记数据,代理只能根据自己的经验进行学习。

半监督是监督和无监督学习之间的状态。

它从每个学习中获取积极的方面,即它使用较小的标记数据集来指导分类,并从较大的未标记数据集中执行无监督特征提取。

使用半监督学习的主要优点是它能够在没有足够的标记数据来训练模型时解决问题,或者当数据根本无法标记时因为人类不知道要在其中寻找什么。

四6个真实世界的机器学习应用

如今,机器学习几乎是所有科技公司的核心,包括谷歌或Youtube搜索引擎等企业。

下面,汇总了一些您可能熟悉的机器学习在现实生活中的应用示例:

车辆在道路上会遇到各种各样的情况。

为了让自动驾驶汽车比人类表现更好,它们需要学习并适应不断变化的路况和其他车辆的行为。

自动驾驶汽车从传感器和摄像头收集周围环境的数据,然后对其进行解释并做出相应的反应。它使用监督学习识别周围物体,使用无监督学习识别其他车辆的模式,并最终在强化算法的帮助下采取相应的行动。

图像分析用于从图像中提取不同的信息。

它在检查制造缺陷、分析智能城市的汽车交通或像谷歌镜头这样的视觉搜索引擎等领域得到应用。

主要思想是使用深度学习技术从图像中提取特征,然后将这些特征应用于对象检测。

如今,公司使用AI聊天机器人来提供客户支持和销售的情况非常普遍。AI聊天机器人通过提供24/7支持帮助企业处理大量客户查询,从而降低支持成本并带来额外收入和满意的客户。

AI机器人技术使用自然语言处理(NLP)来处理文本、提取查询关键字并做出相应响应。

随着电子商务领域的扩张,我们可以观察到在线交易数量的增加和可用支付方式的多样化。不幸的是,有些人利用了这种情况。当今世界的欺诈者非常熟练,可以非常迅速地采用新技术。

在大多数情况下,任何机器学习算法性能不佳的原因都是由于欠拟合和过拟合。

让我们在训练机器学习模型的背景下分解这些术语。

欠拟合和过拟合的原因是什么?

更一般的情况包括用于训练的数据不干净并且包含大量噪声或垃圾值,或者数据的大小太小的情况。但是,还有一些更具体的原因。

让我们来看看那些。

欠拟合的发生可能是因为:

在以下情况下可能会发生过度拟合:

任何机器学习模型的准确性都与数据集的维度成正比。但它只适用于特定的阈值。

数据集的维度是指数据集中存在的属性/特征的数量。以指数方式增加维数会导致添加非必需属性,从而混淆模型,从而降低机器学习模型的准确性。

机器学习算法对低质量的训练数据很敏感。

由于数据不正确或缺失值导致数据中出现噪声,数据质量可能会受到影响。即使训练数据中相对较小的错误也会导致系统输出出现大规模错误。

当算法表现不佳时,通常是由于数据质量问题,例如数量/倾斜/噪声数据不足或描述数据的特征不足。

因此,在训练机器学习模型之前,往往需要进行数据清洗以获得高质量的数据。

THE END
1.机器学习方法(豆瓣)机器学习是以概率论、统计学、信息论、最优化理论、计算理论等为基础的计算机应用理论学科,也是人工智能、数据挖掘等领域的基础学科。 《机器学习方法》全面系统地介绍了机器学习的主要方法,共分三篇。第一篇介绍监督学习的主要方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机https://book.douban.com/isbn/978-7-302-59730-8/
2.机器学习的方法机器学习方法本文介绍了机器学习的三大方法:监督学习(分类、回归)、无监督学习(聚类、降维)和强化学习。监督学习利用带类标的训练数据构建模型进行预测;无监督学习在无类标数据中寻找潜在规律;强化学习通过系统与环境交互提升性能。各种方法在自然语言处理、计算机视觉等领域有广泛应用。 https://blog.csdn.net/sinat_29957455/article/details/78817379
3.机器学习方法李航PDFmob64ca12e2ba6f的技术博客机器学习方法 李航 PDF 简介 一、引言 随着人工智能的发展,机器学习作为一种重要的技术手段,受到越来越多的关注。而李航的《统计学习方法》(PDF版)是一本经典的机器学习教材,被广泛应用于教学和实践中。本文将介绍该书的主要内容,并结合代码示例进行解释,帮助读者更好地理解机器学习方法。 https://blog.51cto.com/u_16213374/9990067
4.机器学习中常见分类方法【嵌牛导读】机器学习的分类方法,你知道几种? 【嵌牛鼻子】决策树,基于规则分类,最近邻分类,朴素贝叶斯,人工神经网络,支持向量机 【嵌牛提问】这几种分类方式各自适用于什么样的数据? 【嵌牛正文】 Content 1. 决策树分类(链接:http://blog.csdn.net/github_36299736/article/details/52749999) https://www.jianshu.com/p/45fdbdeb186b
5.机器学习(一)2万多字的监督学习模型总结用于回归和分类的随机森林是目前应用最广泛的机器学习方法之一。这种方法非常强大,通常不需要反复调节参数就可以给出很好的结果,也不需要对数据进行缩放。 从本质上看,随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷。 如果你用的是多核处理器(几乎所有的现代化计算机都是),你可以用n_jobs 参数来调节使用https://www.flyai.com/article/515
6.全面盘点统计学和机器学习领域八大数据分析方法!空间模型:利用统计学和机器学习方法,建立空间数据的预测和分类模型,例如空间回归模型、地理加权回归(Geographically Weighted Regression,GWR)等。 网络分析:研究空间网络中的路径、连接和网络关系,通常应用于交通规划、电信网络等领域。 遥感分析:使用遥感技术获取地球表面的信息,通过分析遥感图像,了解地表特征、覆盖类型和变https://www.fanruan.com/bw/da-methods
7.上海药物所提出机器学习辅助定向进化新方法近年来,机器学习辅助定向进化得到越来越多的关注,通过计算机模型模拟实验筛选过程,可以显著减少实验筛选负担、提高筛选效率。机器学习方法最重要的是建立模型学习目标蛋白的序列突变体-功能的函数映射关系。这种映射关系被称为蛋白质适应度图景(protein fitness landscape),其中适应度(fitness)是一个抽象概念,可定量https://www.shanghai.gov.cn/nw31406/20230830/f7032dd73e0645a78574436b55d5cde4.html
8.2020全国大学生计算机设计大赛广东省大学生计算机设计大赛校内选拔赛通知9) 图像处理与模式识别方法研究。 10)机器学习方法研究 ? 人工智能挑战赛采用组委会命题方式,一般为3-5题,各参赛队任选一赛题参加,赛题将适时公布。挑战类项目将进行现场测试,并以测试效果与答辩成绩综合评定最终排名。 6.信息可视化设计包括以下小类: https://www.gdufs.edu.cn/info/1006/53874.htm
9.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
10.机器学习模型评估的常见方法有哪些?机器学习模型评估是确定模型在处理未见示例时的有效性和性能的关键过程。在进行模型评估时,我们需要采用一系列常见的方法来测量和比较不同模型之间的表现。下面是常见的机器学习模型评估方法: 训练集与测试集划分:通常将数据集划分为训练集和测试集两部分。训练集用于训练模型,而测试集则用于评估模型的泛化能力。这种方法https://www.cda.cn/view/203855.html
11.机器学习中常见4种学习方法13种算法和27张速查表!-免费加入AI技术专家社群>> 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的分类。 一、4大主要学习方式1.监督式学习 在监督式学习https://cloud.tencent.com/developer/article/1029070
12.植被生态遥感参数定量反演研究方法进展精度显著提高 中小区域 数理统计方法 约束高斯垂直后向散射(CGVB)模型(Sun 等,2018) 简化了GVB模型,精度明显提高 中小区域 物理方法 辐射传输模型(Koetz等,2006) 参数具有实际意义 大尺度、大区域 下载: 导出CSV 3.1 植被覆盖度 植被覆盖度反演方法大致可分为回归分析法、基于像元尺度分解法和机器学习方法3大类。https://www.ygxb.ac.cn/thesis/91/10706233/zh/
13.总结673篇论文,UIUC等发表可信机器学习综述,20个月完成前文介绍的可信机器学习方法具有坚实的理论基础,也在多种场景中验证有效,如果用于训练大模型,将有望提高模型的可信性。然而大模型的训练需要极大的成本,为了改进现有的大模型,可以借助高效使用大模型的技术,如微调 (finetuning),参数高效微调 (parameter-efficient fine-tuning),提示学习 (prompting),以及从人类反馈进行https://www.thepaper.cn/newsDetail_forward_24210113