一文读懂什么是机器学习

世界充满了数据——由人和计算机生成的图像、视频、电子表格、音频和文本充斥着互联网,将我们淹没在信息的海洋中。

传统上,人类分析数据以做出更明智的决策,并设法调整系统以控制数据模式的变化。然而,随着传入信息量的增加,我们理解它的能力下降,给我们带来了以下挑战:

我们如何使用所有这些数据以自动而非手动的方式推导意义?

这正是机器学习发挥作用的地方。本文将介绍:

什么是机器学习

机器学习算法的关键要素

机器学习是如何工作的

6个真实世界的机器学习应用

机器学习的挑战和局限性

这些预测是由机器从一组称为“训练数据”的数据中学习模式做出的,它们可以推动进一步的技术发展,从而改善人们的生活。

机器学习是一个概念,它允许计算机自动从示例和经验中学习,并在没有明确编程的情况下模仿人类的决策。

机器学习是人工智能的一个分支,使用算法和统计技术从数据中学习并从中得出模式和隐藏的见解。

现在,让我们更深入地探索机器学习的来龙去脉。

机器学习中有数以万计的算法,可以根据学习风格或所解决问题的性质进行分组。但每个机器学习算法都包含以下关键组件:

以上是机器学习算法的四个组成部分的详细分类。

描述性:系统收集历史数据,对其进行组织,然后以易于理解的方式呈现。

主要重点是掌握企业中已经发生的事情,而不是从其发现中得出推论或预测。描述性分析使用简单的数学和统计工具,例如算术、平均值和百分比,而不是预测性和规范性分析所需的复杂计算。

预测性:描述性分析侧重于分析历史数据并从中得出推论,而预测性分析侧重于预测和理解未来可能发生的事情。

通过查看历史数据来分析过去的数据模式和趋势可以预测未来可能发生的事情。

规范性:描述性分析告诉我们过去发生了什么,而预测性分析告诉我们通过从过去学习未来可能发生的事情。但是,一旦我们对可能发生的事情有了洞察力,应该做什么呢?

这就是规范性分析。它帮助系统使用过去的知识对一个人可以采取的行动提出多项建议。规范性分析可以模拟场景并提供实现预期结果的途径。

ML算法的学习可以分为三个主要部分。

机器学习模型旨在从数据中学习模式并应用这些知识进行预测。问题是:模型如何进行预测?

这个过程非常基础——从输入数据(标记或未标记)中找到模式并应用它来得出结果。

机器学习模型旨在将自己做出的预测与基本事实进行比较。目标是了解它是否在朝着正确的方向学习。这决定了模型的准确性,并暗示了我们如何改进模型的训练。

该模型的最终目标是改进预测,这意味着减少已知结果与相应模型估计之间的差异。

该模型需要通过不断更新权重来更好地适应训练数据样本。该算法循环工作,评估和优化结果,更新权重,直到获得关于模型准确性的最大值。

机器学习主要包括四种类型。

在监督学习中,顾名思义,机器在指导下学习。

这是通过向计算机提供一组标记数据来完成的,以使机器了解输入的内容以及输出应该是什么。在这里,人类充当向导,为模型提供带标签的训练数据(输入-输出对),机器从中学习模式。

一旦从以前的数据集中学习了输入和输出之间的关系,机器就可以轻松地预测新数据的输出值。

我们可以在哪里使用监督学习?

答案是:在我们知道在输入数据中查看什么以及我们想要什么作为输出的情况下。

监督学习问题的主要类型包括回归和分类问题。

无监督学习的工作方式与监督学习的工作方式恰恰相反。

它使用未标记的数据——机器必须理解数据,找到隐藏的模式并做出相应的预测。

在这里,机器在独立地从数据中推导出隐藏模式后为我们提供新发现,而无需人工指定要寻找的内容。

无监督学习问题的主要类型包括聚类和关联规则分析。

强化学习涉及一个代理,该代理通过执行操作来学习在环境中的行为。

根据这些行动的结果,它会提供反馈并调整其未来的路线——对于每一个好的动作,代理都会得到积极的反馈,而对于每一个坏的动作,代理都会得到负面的反馈或惩罚。

强化学习在没有任何标记数据的情况下进行学习。由于没有标记数据,代理只能根据自己的经验进行学习。

半监督是监督和无监督学习之间的状态。

它从每个学习中获取积极的方面,即它使用较小的标记数据集来指导分类,并从较大的未标记数据集中执行无监督特征提取。

使用半监督学习的主要优点是它能够在没有足够的标记数据来训练模型时解决问题,或者当数据根本无法标记时因为人类不知道要在其中寻找什么。

四6个真实世界的机器学习应用

如今,机器学习几乎是所有科技公司的核心,包括谷歌或Youtube搜索引擎等企业。

下面,汇总了一些您可能熟悉的机器学习在现实生活中的应用示例:

车辆在道路上会遇到各种各样的情况。

为了让自动驾驶汽车比人类表现更好,它们需要学习并适应不断变化的路况和其他车辆的行为。

自动驾驶汽车从传感器和摄像头收集周围环境的数据,然后对其进行解释并做出相应的反应。它使用监督学习识别周围物体,使用无监督学习识别其他车辆的模式,并最终在强化算法的帮助下采取相应的行动。

图像分析用于从图像中提取不同的信息。

它在检查制造缺陷、分析智能城市的汽车交通或像谷歌镜头这样的视觉搜索引擎等领域得到应用。

主要思想是使用深度学习技术从图像中提取特征,然后将这些特征应用于对象检测。

如今,公司使用AI聊天机器人来提供客户支持和销售的情况非常普遍。AI聊天机器人通过提供24/7支持帮助企业处理大量客户查询,从而降低支持成本并带来额外收入和满意的客户。

AI机器人技术使用自然语言处理(NLP)来处理文本、提取查询关键字并做出相应响应。

随着电子商务领域的扩张,我们可以观察到在线交易数量的增加和可用支付方式的多样化。不幸的是,有些人利用了这种情况。当今世界的欺诈者非常熟练,可以非常迅速地采用新技术。

在大多数情况下,任何机器学习算法性能不佳的原因都是由于欠拟合和过拟合。

让我们在训练机器学习模型的背景下分解这些术语。

欠拟合和过拟合的原因是什么?

更一般的情况包括用于训练的数据不干净并且包含大量噪声或垃圾值,或者数据的大小太小的情况。但是,还有一些更具体的原因。

让我们来看看那些。

欠拟合的发生可能是因为:

在以下情况下可能会发生过度拟合:

任何机器学习模型的准确性都与数据集的维度成正比。但它只适用于特定的阈值。

数据集的维度是指数据集中存在的属性/特征的数量。以指数方式增加维数会导致添加非必需属性,从而混淆模型,从而降低机器学习模型的准确性。

机器学习算法对低质量的训练数据很敏感。

由于数据不正确或缺失值导致数据中出现噪声,数据质量可能会受到影响。即使训练数据中相对较小的错误也会导致系统输出出现大规模错误。

当算法表现不佳时,通常是由于数据质量问题,例如数量/倾斜/噪声数据不足或描述数据的特征不足。

因此,在训练机器学习模型之前,往往需要进行数据清洗以获得高质量的数据。

THE END
1.机器学习:开启智能未来的钥匙腾讯云开发者社区机器学习作为人工智能的核心方法,通过分析数据中的隐藏规律,让计算机从中获取新的经验和知识,不断提升和改善自身性能,从而像人一样根据所学知识做出决策。https://cloud.tencent.com/developer/article/2478495
2.机器学习——自动机器学习(AutoML)文章浏览阅读1.2k次,点赞77次,收藏85次。自动机器学习(AutoML)是指通过自动化的方法来选择模型、调整超参数和预处理数据的过程,从而让没有丰富经验的用户也能创建高质量的机器学习模型。与传统的机器学习方法相比,AutoML能够自动执行数据预处理、特征工程、模型选择、https://blog.csdn.net/2301_80374809/article/details/142948574
3.什么是机器学习?一文读懂数据驱动的未来并通过与环境的交互来不断优化决策策略。这种方法在自动驾驶、机器人控制等领域具有广阔的应用前景。随着技术的不断进步和应用场景的日益丰富,机器学习将在更多领域发挥重要作用。从金融风控到医疗健康,从智能制造到智慧城市,机器学习的身影无处不在。它将助力人类解决更为复杂的问题,推动社会的持续发展和进步。https://baijiahao.baidu.com/s?id=1800394235426231596&wfr=spider&for=pc
4.什么是自动机器学习机器学习(Machine Learning)是一种人工智能领域的重要技术,它使计算机能够通过数据自动学习并改进性能。然而,传统的机器学习方法需要专业领域知识和大量时间来选择合适的模型、特征工程和超参数调整等步骤。为了降低机器学习的门槛,提高效率,并使更多的人能够从中受益,自动机器学习(AutoML)应运而生。 https://www.eefocus.com/e/1664499.html
5.自动机器学习机器学习hackernew的技术博客自动机器学习 机器学习,机器学习简介机器学习是一种人工智能技术,通过对数据的学习和建模来实现自主地执行某项任务的能力。在数据密集型领域,机器学习已成为了一项重要的技术,包括图像识别、语音识别、自然语言处理、推荐系统、智能游戏等领域。本文将介绍机器学习的基https://blog.51cto.com/u_56701/6418631
6.Cadence全球首创机器学习核心EDA自动化工具Cerebrus面世楷登电子(美国 Cadence 公司,NASDAQ:CDNS)今日宣布推出 Cadence? Cerebrus? Intelligent Chip Explorer——首款创新的基于机器学习(ML)的设计工具,可以扩展数字芯片设计流程并使之自动化,让客户能够高效达成要求严苛的芯片设计目标。Cerebrus 和 Cadence RTL-to-signoff 流程强强联合,为高阶工艺芯片设计师、CAD 团https://laoyaoba.com/n/787292
7.自动机器学习平台决策类AI应用HyperCycle ML低门槛、标准化、决策类自动机器学习平台 基于库伯学习圈理论,将AI应用过程简化为“行为、反馈、学习、应用”四个步骤,大幅降低AI使用门槛,为企业规模化落地AI提供效率引擎,助力企业轻松实现智能化转型。 基于库伯学习圈理论,将AI应用过程简化为“行为、反馈、学习、应用”四个步骤,大幅降低AI使用门槛,为https://www.4paradigm.com/product/hypercycle_ml.html
8.什么是自动化机器学习(AutoML)?了解什么是自动化机器学习及其在 ML.NET 中的不同组件https://learn.microsoft.com/zh-cn/dotnet/machine-learning/automated-machine-learning-mlnet
9.机器学习的不确定性:自动驾驶的安全视角汽车领域的这些系统正在快速地发展,并加速了高度自动化和全自动驾驶的发展进程,同时也在安全保障方面提出了新的挑战。机器学习方法和数据中的不确定性是安全领域研究的一个重要课题。在这篇文章中,我们将在自动驾驶领域探究这个问题,着手分析四个安全性相关的案例,然后介绍我们提出的相应的解决方案。该方法的核心是在自http://www.cheyun.com/content/24837
10.IEEEIV2018丨徐昕:基于机器学习算法的自动驾驶汽车决策与控制由IEEE智能交通系统协会 (ITSS)主办的The 29th IEEE Intelligent Vehicles Symposium(第29届IEEE国际智能车大会)于6月26日-6月30日在江苏常熟圆满落幕,国防科技大学机电工程与自动化学院徐昕教授作为特邀主旨报告嘉宾,他报告的题目为《基于机器学习算法的自动驾驶汽车决策与控制》。 https://mp.ofweek.com/ai/a545673225236
11.一种基于机器学习的自动对焦算法AET摘要:针对现有面阵CCD相机自动对焦算法精度比较低、易出现局部峰值的问题,提出了一种基于机器学习的自动对焦算法。采用机器学习中的决策树算法求得两个决策树,用决策树来决定镜头移动的方向及下一步的状态,进而确定了一个包含有峰值的范围,然后再用爬山算法进行局部峰值搜索,从而确定焦点峰值位置。实验结果表明,该算法http://www.chinaaet.com/article/3000020032
12.强化学习与自动驾驶原创:晏茜资料来源:时老师 本文主要介绍强化学习在智能交通,尤其是自动驾驶领域的应用。首先带大家了解强化学习的内涵,然后分析如何构建强化学习的问题,最后会基于项目内容去讲解自https://www.jianshu.com/p/be915d014084
13.深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台(豆瓣)#读书 《深入理解AutoML和AutoDL: 构建自动化机器学习与深度学习平台》,王健宗,机械工业出版社。 似乎是目前关于AutoML的第一本中文成书? 作者蜻蜓点水般的介绍了AutoML, AutoDL所涉及的繁杂的概念和技术,属于浅入浅出型,也几乎没有任何实例,但最后已经形成了相当大的篇 (展开) https://book.douban.com/subject/34794803/
14.从视频追踪到自动评论,五月GitHub最热机器学习项目都在这里了您的五月余额已不足,这个月最新最火的机器学习项目都看过了吗? Mybridge AI博客从将近250个机器学习开源项目中找到了标星数排名最靠前的Top 10项目,涵盖视觉问答、对象检测、自动生成评论等多个维度。 一起来看看吧~ 第1名:Pythia Pythia是Facebook人工智能实验室出品的视觉和语言多模式研究的模块化框架,2138星。https://tech.sina.com.cn/csj/2019-05-27/doc-ihvhiqay1682336.shtml
15.电子系机器学习课题组自动化知识图谱表示学习论文被TPAMI接收电子系机器学习课题组与第四范式和香港科技大学合作论文《知识图谱学习的双线性评分函数搜索》(Bilinear Scoring Function Search for Knowledge Graph Learning)近期发表于IEEE模式分析和机器智能学报(IEEE Transactions on Pattern Analysis and Machine Intelligence ,IEEE TPAMI)。信息系统研究所姚权铭老师为论文通讯作者,项https://www.ee.tsinghua.edu.cn/info/1076/3716.htm
16.学习报告:基于睡眠脑电的睡眠分期3.其他机器学习算法 深度学习 注:表格来源 Fiorillo L, Puiatti A, Papandrea M, et al. Automated sleep scoring: A review of the latest approaches[J]. Sleep medicine reviews, 2019, 48: 101204. 总结 可以看出基于深度学习的自动分期系统已经得到越来越广泛的研究,大部分深度学习框架基本都是基于CNN和RNNhttps://www.scholat.com/teamwork/showPostMessage.html?id=9736
17.Python环境下的自动化机器学习超参数调优机器之心机器学习算法的性能高度依赖于超参数的选择,对机器学习超参数进行调优是一项繁琐但却至关重要的任务。本文介绍了一个使用「Hyperopt」库对梯度提升机(GBM)进行贝叶斯超参数调优的完整示例,并着重介绍了其实现过程。 由于机器学习算法的性能高度依赖于超参数的选择,对机器学习超参数进行调优是一项繁琐但至关重要的任务。https://www.jiqizhixin.com/articles/2018-08-08-2
18.九章云极DataCanvas方磊:Hypernets——自动化机器学习的基打架在WAIC 2021 AI 开发者论坛上,九章云极 DataCanvas 董事长方磊发表主题演讲《Hypernets:自动化机器学习的基础框架》,在演讲中,他主要介绍了 Hypernets 的概念模型和两个具体实例。他认为,好的 AutoML 框架一定要具备富有表现力的搜索空间描述语言、支持高维空间的高效搜索算法和高性能的评估策略。 https://m.thepaper.cn/baijiahao_13676597
19.Science自动化+机器学习攻克代谢途径改造不确定性的技术壁垒针对上述问题,研究团队利用自动化大设施平台技术,确定可控的进化轨迹,实现了代谢通路多个关键性基因的自动化同步进化。该研究还搭载了ProEnsemble机器学习框架,进一步缓解了进化途径各基因间的上位效应影响,进而创造了一个高效的通用型底盘来合成黄酮化合物。这项工作(DOI: 10.1002/advs.202306935)可以有效克服代谢途径进化https://www.siat.ac.cn/kyjz2016/202402/t20240221_6963199.html
20.NanoEdgeAIStudioNanoEdgeAIStudio - 面向STM32开发人员的自动化机器学习(ML)工具, STNEAISOLOLIC, STNEAISPR1, STNEAISPR4, STNEAITEAMLIC, STNEAISTUDIO, STNEAISPR2, STNEAISPR3, STMicroelectronicshttps://www.st.com/zh/development-tools/nanoedgeaistudio.html