一文读懂什么是机器学习

世界充满了数据——由人和计算机生成的图像、视频、电子表格、音频和文本充斥着互联网,将我们淹没在信息的海洋中。

传统上,人类分析数据以做出更明智的决策,并设法调整系统以控制数据模式的变化。然而,随着传入信息量的增加,我们理解它的能力下降,给我们带来了以下挑战:

我们如何使用所有这些数据以自动而非手动的方式推导意义?

这正是机器学习发挥作用的地方。本文将介绍:

什么是机器学习

机器学习算法的关键要素

机器学习是如何工作的

6个真实世界的机器学习应用

机器学习的挑战和局限性

这些预测是由机器从一组称为“训练数据”的数据中学习模式做出的,它们可以推动进一步的技术发展,从而改善人们的生活。

机器学习是一个概念,它允许计算机自动从示例和经验中学习,并在没有明确编程的情况下模仿人类的决策。

机器学习是人工智能的一个分支,使用算法和统计技术从数据中学习并从中得出模式和隐藏的见解。

现在,让我们更深入地探索机器学习的来龙去脉。

机器学习中有数以万计的算法,可以根据学习风格或所解决问题的性质进行分组。但每个机器学习算法都包含以下关键组件:

以上是机器学习算法的四个组成部分的详细分类。

描述性:系统收集历史数据,对其进行组织,然后以易于理解的方式呈现。

主要重点是掌握企业中已经发生的事情,而不是从其发现中得出推论或预测。描述性分析使用简单的数学和统计工具,例如算术、平均值和百分比,而不是预测性和规范性分析所需的复杂计算。

预测性:描述性分析侧重于分析历史数据并从中得出推论,而预测性分析侧重于预测和理解未来可能发生的事情。

通过查看历史数据来分析过去的数据模式和趋势可以预测未来可能发生的事情。

规范性:描述性分析告诉我们过去发生了什么,而预测性分析告诉我们通过从过去学习未来可能发生的事情。但是,一旦我们对可能发生的事情有了洞察力,应该做什么呢?

这就是规范性分析。它帮助系统使用过去的知识对一个人可以采取的行动提出多项建议。规范性分析可以模拟场景并提供实现预期结果的途径。

ML算法的学习可以分为三个主要部分。

机器学习模型旨在从数据中学习模式并应用这些知识进行预测。问题是:模型如何进行预测?

这个过程非常基础——从输入数据(标记或未标记)中找到模式并应用它来得出结果。

机器学习模型旨在将自己做出的预测与基本事实进行比较。目标是了解它是否在朝着正确的方向学习。这决定了模型的准确性,并暗示了我们如何改进模型的训练。

该模型的最终目标是改进预测,这意味着减少已知结果与相应模型估计之间的差异。

该模型需要通过不断更新权重来更好地适应训练数据样本。该算法循环工作,评估和优化结果,更新权重,直到获得关于模型准确性的最大值。

机器学习主要包括四种类型。

在监督学习中,顾名思义,机器在指导下学习。

这是通过向计算机提供一组标记数据来完成的,以使机器了解输入的内容以及输出应该是什么。在这里,人类充当向导,为模型提供带标签的训练数据(输入-输出对),机器从中学习模式。

一旦从以前的数据集中学习了输入和输出之间的关系,机器就可以轻松地预测新数据的输出值。

我们可以在哪里使用监督学习?

答案是:在我们知道在输入数据中查看什么以及我们想要什么作为输出的情况下。

监督学习问题的主要类型包括回归和分类问题。

无监督学习的工作方式与监督学习的工作方式恰恰相反。

它使用未标记的数据——机器必须理解数据,找到隐藏的模式并做出相应的预测。

在这里,机器在独立地从数据中推导出隐藏模式后为我们提供新发现,而无需人工指定要寻找的内容。

无监督学习问题的主要类型包括聚类和关联规则分析。

强化学习涉及一个代理,该代理通过执行操作来学习在环境中的行为。

根据这些行动的结果,它会提供反馈并调整其未来的路线——对于每一个好的动作,代理都会得到积极的反馈,而对于每一个坏的动作,代理都会得到负面的反馈或惩罚。

强化学习在没有任何标记数据的情况下进行学习。由于没有标记数据,代理只能根据自己的经验进行学习。

半监督是监督和无监督学习之间的状态。

它从每个学习中获取积极的方面,即它使用较小的标记数据集来指导分类,并从较大的未标记数据集中执行无监督特征提取。

使用半监督学习的主要优点是它能够在没有足够的标记数据来训练模型时解决问题,或者当数据根本无法标记时因为人类不知道要在其中寻找什么。

四6个真实世界的机器学习应用

如今,机器学习几乎是所有科技公司的核心,包括谷歌或Youtube搜索引擎等企业。

下面,汇总了一些您可能熟悉的机器学习在现实生活中的应用示例:

车辆在道路上会遇到各种各样的情况。

为了让自动驾驶汽车比人类表现更好,它们需要学习并适应不断变化的路况和其他车辆的行为。

自动驾驶汽车从传感器和摄像头收集周围环境的数据,然后对其进行解释并做出相应的反应。它使用监督学习识别周围物体,使用无监督学习识别其他车辆的模式,并最终在强化算法的帮助下采取相应的行动。

图像分析用于从图像中提取不同的信息。

它在检查制造缺陷、分析智能城市的汽车交通或像谷歌镜头这样的视觉搜索引擎等领域得到应用。

主要思想是使用深度学习技术从图像中提取特征,然后将这些特征应用于对象检测。

如今,公司使用AI聊天机器人来提供客户支持和销售的情况非常普遍。AI聊天机器人通过提供24/7支持帮助企业处理大量客户查询,从而降低支持成本并带来额外收入和满意的客户。

AI机器人技术使用自然语言处理(NLP)来处理文本、提取查询关键字并做出相应响应。

随着电子商务领域的扩张,我们可以观察到在线交易数量的增加和可用支付方式的多样化。不幸的是,有些人利用了这种情况。当今世界的欺诈者非常熟练,可以非常迅速地采用新技术。

在大多数情况下,任何机器学习算法性能不佳的原因都是由于欠拟合和过拟合。

让我们在训练机器学习模型的背景下分解这些术语。

欠拟合和过拟合的原因是什么?

更一般的情况包括用于训练的数据不干净并且包含大量噪声或垃圾值,或者数据的大小太小的情况。但是,还有一些更具体的原因。

让我们来看看那些。

欠拟合的发生可能是因为:

在以下情况下可能会发生过度拟合:

任何机器学习模型的准确性都与数据集的维度成正比。但它只适用于特定的阈值。

数据集的维度是指数据集中存在的属性/特征的数量。以指数方式增加维数会导致添加非必需属性,从而混淆模型,从而降低机器学习模型的准确性。

机器学习算法对低质量的训练数据很敏感。

由于数据不正确或缺失值导致数据中出现噪声,数据质量可能会受到影响。即使训练数据中相对较小的错误也会导致系统输出出现大规模错误。

当算法表现不佳时,通常是由于数据质量问题,例如数量/倾斜/噪声数据不足或描述数据的特征不足。

因此,在训练机器学习模型之前,往往需要进行数据清洗以获得高质量的数据。

THE END
1.算法网站:6个非常适合学习编程/算法的网站,选一个你喜欢的吧本文推荐了6个适合学习和练习编程算法的网站,包括HackerRank、TopCoder、Geekforgeeks、LeetCode、Daily Coding Problem和Exercism.io,涵盖了从基础到高级的算法题,适合不同水平的开发者提升技能,部分网站还提供在线编程环境和代码性能评估。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/qq_42366672/article/details/123920105
2.资源帖丨字节跳动技术Leader们推荐的学习资源“春季招聘和金三银四要开始了,我想提升技术,更上一层楼,除了投简历刷题,还有什么可以努力的方向啊?”如果你是技术领域的新人,或者已经毕业多年、正在考虑转向新的技术方向,上面这个问题可能正在困扰着你。为了回答这个问题,技术范儿找到了多媒体、推荐算法、计算机https://maimai.cn/article/detail?fid=1589935106&efid=ROE93ZNmM8sYE6S4rjpy5w
3.打造工业级推荐系统(一):推荐算法工程师的成长之道jackjt本文是作者计划的一系列文章中的一篇。后面的文章将涉及到推荐系统的基本介绍、冷启动、商业价值、工程实现、评估等方方面面。这系列文章是作者多年推荐系统学习、实践经验的总结,希望能够帮助到即将入行推荐系统开发的读者或者推荐系统开发人员,让大家少走弯路。 https://www.cnblogs.com/jack-jt-z/p/10773106.html
4.什么是智能推荐?智能推荐的原理是什么?随着技术的发展,深度学习应用的场景越来越广泛,业界也出现很多将深度学习应用于推荐系统的尝试。基于用户行为的深度学习模型最先应用于中小规模计算广告系统中,大规模的计算广告系统因巨大的吞吐量和低延迟的需要,基于成本考虑,多采用简单的回归算法来实现。 https://www.niaogebiji.com/article-106383-1.html
5.综述170篇“自监督学习”推荐算法,港大发布SSL4Rec:代码资料库全面对比学习作为一种突出的自监督学习方法,其主要目标是最大化从数据中增强的不同视图之间的一致性。在推荐系统的对比学习中,目标是最小化以下损失函数: E?°ω?表示对比视图创建操作,不同的基于对比学习的推荐算法有不用的创建过程。每个视图的构造由数据增强过程ω?(可能涉及在增强图中的节点/边)以及嵌入https://www.thepaper.cn/newsDetail_forward_27310146
6.推荐系统推荐系统中的排序学习51CTO博客【推荐系统】推荐系统中的排序学习 “本文首先介绍排序学习的三种主要类别,然后详细介绍推荐领域最常用的两种高层排序学习算法框架:BPR和LambdaMART。因为排序学习的算法和实践大都来源于信息检索,一些理论也必须从信息检索的领域说起,所以本文也会涉及一些的信息检索、搜索方面的理论知识,但重点依然会放在推荐领域排序学习https://blog.51cto.com/u_15671528/5604965
7.机器学习算法在推荐系统中的应用:从数据预处理到模型部署实战指南在当今信息爆炸的时代,推荐系统扮演了越来越重要的角色,它可以帮助用户发现和获取个性化的信息、产品或服务。而推荐系统中的机器学习算法则是其核心引擎,能够通过对用户和物品的行为数据进行分析和学习,从而实现精准的个性化推荐。本文将介绍机器学习算法在推荐系统中的应用,从数据预处理到模型部署的实战指南,帮助读者了解https://www.jianshu.com/p/322e9cf4751d
8.新闻学概论(0818)的大纲算法推荐指依托互联网技术与大数据技术,对用户的阅读偏好进行跟踪,经过计算分析后得出用户画像,并据此进行新闻生产与分发。算法推荐造就了算法新闻的流量王国。时至今日,算法已经成为国内资讯类APP 的“标配”,今日头条、一点资讯、天天快报等,无不以算法作为其核心配置。 https://canvas.shufe.edu.cn/courses/14345/assignments/syllabus
9.百度算法岗武功秘籍(中)4 数据结构与算法分析相关知识点 5 编程高频问题:Python&C/C++方面 6 操作系统高频问题:数据库&线程等 7 技术&产品&开放性问题 3 百度面经涉及项目知识点 3.1 深度学习-CNN卷积神经网络方面 3.1.1 目标检测方面 3.1.1.1 讲解原理 ● 说一下Faster R-CNN,要详细画出图,说一下ROI polling与RPN? https://www.flyai.com/article/948
10.基于深度学习的推荐算法——推荐系统模型搭建基础及DeepCrossing基于深度学习的推荐算法——推荐系统模型搭建基础及DeepCrossing原理 本章节从推荐系统模型搭建基础和DeepCr ssing原理讲解及实操两展开。 ?、推荐系统模型搭建基础 1. Keras搭建模型 keras搭建模型主要有两种模式,?种是Sequential API,另外?种是Functi nal API。前者主要是通过层的有序堆叠形成?个模型https://max.book118.com/html/2022/0413/6010025010004134.shtm
11.联邦推荐系统——个性化推荐与隐私安全的兼顾者3、迁移联邦推荐算法 迁移联邦推荐主要解决参与方在相同用户和商品都不多的情况,如何协作分享经验构建推荐系统的问题。 迁移联邦系统的代表应用场景: 如上图,A 地区的书籍推荐系统希望帮助 B 地区的影视推荐系统优化影视推荐效果。在这种情况下,两个参与方所提供的服务有所不同。但是,在迁移联邦推荐系统之下,可以将相https://xie.infoq.cn/article/6bebbf1a280406b9f143a703e
12.零基础入门推荐系统新闻推荐学习赛天池大赛通过对本方案的完整学习,可以帮助掌握推荐系统相关竞赛的基本技能。同时平台也将提供专属的视频直播学习通道,敬请关注平台通告。 新人赛的目的主要是为了更好地带动处于初学者阶段的新同学们一起玩起来,因此,我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析https://tianchi.aliyun.com/competition/entrance/531842/introduction
13.推荐几个算法可视化网站,从此轻松学算法!大家好,我是大彬~ 很多初学者在学习数据结构与算法的时候,都会觉得很难,很大一部分是因为数据结构与算法本身比较抽象,不好理解。对于这一点,可以通过一些可视化动画来帮助理解。 下面大彬推荐几个学习数据结构和算法的可视化工具。 Data Structure Visualizations 这是https://m.nowcoder.com/feed/main/detail/6ecdab56f00b44bfacf3cb854929059e