五分钟了解机器学习的基本概念

1、人工智能、机器学习、深度学习之间的关系

总的来说,深度学习时机器学习的一个子类,而机器学习又是人工智能的一个子类。

人工智能是一个非常宽泛的概念,它可以代指任何形式的蕴含某些智能特性的技术,并非特指某一特定技术领域。而机器学习则指一个特定领域,用于指代人工智能的一个特定类别。而进一步的,机器学习也包含很多技术,深度学习就是其中之一。

简单地说,机器学习其实就是一种对数据的建模技术,(就我个人看来也像是一种数据处理的算法模型),是一种从数据抽象出模型的技术。数据可以是各种信息,如文档、图像等等,模型就是机器学习的产物。

//就我个人的理解来看,机器学习就是通过海量的数据集合,来对你所建立的模型进行训练,使其达到一个预期的效果,最终生成一个可靠的模型。

机器学习无法基于错误的训练数据来实现预期目标,就像给新生的婴儿几个苹果,一会儿告诉你是苹果,一会儿告诉你是梨子,一会儿又说是西瓜,他永远不会知道到底什么是苹果。所以,获取能够充分反应实际领域据特征的无偏训练数据至关重要。

这里需要提到一个概念,泛化(generalization):确保模型对于训练数据与输入数据能够获得一致性能的处理过程。机器学习能否成功很大程度上取决于泛化的有效程度。

泛化过程失效的主要诱因之一就是过拟合。这是一个训练模型时十分常见的问题。下面举一个例子进行简单的描述。

例如,我们需要利用机器学习对两类数据点进行分类。我们以两类数据的特征坐标画出一幅散点图:

此时我们需要建立一个模型对两者进行分类,实际上也就是得到一条区分两者的边界

如图所示,虽然存在一定的数据点偏离,但曲线似乎是一条比较合理的边界。

如果我们要以完美的边界对所有数据点进行划分呢?能否正确地反映普适的行为特征呢?

完美的边界如上图所示,针对这样的模型,如果有一个新的数据(正方形)输入,能否得到一个准确的划分呢?

这个完美的边界模型将黑色方形划分为△,但实际上它应该属于黑色圆更加合理,为什么对训练数据的100%准确率匹配会产生问题呢?

其实,在大量的训练数据中,存在的大量的噪声,就比如上述的一些偏离了的数据点。但机器学习无法区分噪声,如果过分要求区分所有训练集数据,他将会生成一个不合理的模型,而对后续所需要判定的实际数据的判定产生误差。

如果认为训练数据中的每一个元素都是准确的,并且精准匹配模型,这将会得到一个普适性较低的模型,这就是过拟合。就比如,你拿出三个苹果,十分强硬地和婴儿宝宝说这就是苹果,其他的就算很像也不是苹果,只有这三个才是苹果。这样,如果再拿来一个新的没有见过的苹果,婴儿宝宝也会觉得这个东西不是刚见过的苹果,所以判断失误,这其实就是过拟合的概念。

这里介绍两种克服过拟合问题的典型方法:正则化和验证。

(1)正则化:是一种力求构建极简模型的数值方法。精简后的模型能以较小的性能代价,避免过拟合的影响。类似于前文讨论的例子,复杂的曲线更倾向于过拟合。而简单的曲线虽然未能正确划分部分数据点,但能更加好的反映总体特征。

(2)验证:验证是指预留一部分训练数据,并利用其监控模型性能的过程。验证数据集不参与训练过程。如果训练过程所生成的模型对预留输入数据的处理效果不佳,则认为存在过拟合。

验证的方法十分常见,也拿之前说的认识苹果来说,相当于你在教婴儿“这2个是苹果”之后,再拿出另一个苹果出来,如果婴儿宝宝能认出来也是苹果,说明教的效果好,反之如果不认识,那就是过拟合的意思了。

在利用验证技术的机器学习过程包括以下几步:

(1)将训练数据分为两组:一组用于训练,另一组用于验证。根据经验规律,训练数据与验证数据的比例为8:2;

(2)使用训练数据对模型进行训练;

(3)利用验证数据评估模型效果。如果效果满意。结束训练;如果效果不显著,修改模型重新进行训练。

这里再介绍一种验证方法——交叉验证

简单的说,交叉验证就是不保留数据的原始划分,而是重复划分数据。比例一定,但数据划分范围不同,是从训练过程中随机选出的。

主要分以下三个大类:

监督学习的应用最为广泛。在监督学习中,每个训练数据集均由输入与标准输出构成的数据对构成。标准输出是模型对该输入应生成的预期结果。

{input,correctoutput}

类似于之前的教婴儿认识苹果,苹果这个物体就是数据,它包含苹果的各种特征,比如颜色、大小、触感等等,对用的输出结果就是苹果,婴儿需要学会通过大脑收集到的信息对其进行判断。这就是监督学习。

而在无监督学习中,训练数据仅包含输入,而不包含标准输出。

{input}

无监督学习通常用于分析数据的特征,并对数据进行预处理。再类比于教婴儿学习苹果,无监督学习相当于没有人告诉宝宝啥是苹果和梨子,而是把一堆水果塞给宝宝,让他自己根据特征分出两个种类,这个过程就相当于提取物体的关键特征。

增强学习利用输入、某些输出以及评分组成的数据集作为训练数据。它通常用在需要优化折中的情况,例如控制和博弈问题。

{input,someoutput,gradeforthisoutput}

监督学习最常见的两类应用就是分类(classification)和回归(regression)。

{input,class}//class种类即对应这数据的标准输出。

回归不判定类别,而是预测数值。针对对以后数据的学习,得到一个模型,可对新输入的数据进行值的预测。比如天气预测、股票预测等等。

总之,分类是分析研究利用模型来判别输入数据属于哪一种类别;回归是分析利用模型来估计数据的趋势。

THE END
1.卡码笔记《代码随想录》动态规划:动态规划理论基础 难度:简单 考点:动态规划 写笔记 2 篇笔记 kamaCoder57382 5 天前 算法训练营Day32 | 动态规划理论基础 动态规划中每一个状态一定是由上一个状态推导出来的,这一点区分于贪心,贪心没有状态推导,而是直接从局部选择最优的。 动态规划五部曲: 确定dp数组(dp table)以及https://notes.kamacoder.com/question/102061
2.全748集目前B站最全最细的Python零基础全套教程,2024最新版【全50集】犯罪心理学 西南政法大学 梅传强 【慕课版】 6.0万播放 【全748集】目前B站最全最细的Python零基础全套教程,2024最新版,比付费教程强十倍!七天从小白到大神,学完即可就业!存下吧,少走99%弯路! 5.0万播放 【课前介绍】2024超详细的零基础小白Python学习指南 02:20 【语法入门】超详细Python解释器以https://www.bilibili.com/list/ml4974509466?oid=113588446429452
3.475三年级附加题:请问全班有多少人?做对的同学寥寥无几475三年级附加题:请问全班有多少人?做对的同学寥寥无几2024-12-14 10:17:26 我服子佩 澳大利亚,新南威尔士州 举报 0 分享至 0:00 / 0:00 速度 洗脑循环 Error: Hls is not supported. 视频加载失败 我服子佩 2693粉丝 喜欢 01:24 474简便计算:125×88=?介绍两种巧算方法轻松算出 01:44 https://www.163.com/v/video/VNIEA0G9G.html
4.五分钟学算法官方网站理想股票技术论坛五分钟学算法官方网站,五分钟学算法,官方网站,算法教程,在线学习,编程教程 五分钟学算法官方网站,提供丰富的算法教程,在线学习编程知识,轻松掌握各类算法技巧。 公式法详解与应用实例视频教程 [股票软件指标公式技术交流] 刻骨2010 2024-8-18 相关标签:五分钟学算法官方网站 数学公式软件app 计算题公式法的公式 https://www.55188.com/tag-08617563.html
5.分享一个学习算法的网站五分钟学算法官方网站文章浏览阅读1.5k次。五分钟学算法:https://www.cxyxiaowu.com/通过动画来理解算法,我觉得很有意思。然后祝程序员生日快乐,永不加班!_五分钟学算法官方网站https://blog.csdn.net/qq_36767214/article/details/102732104
6.全网最全程序员学习网站汇总,还不赶快收藏地址: 五分钟学算法 简介:有少量非常不错的数据结构、算法相关的内容。 推荐指数:? 13、犬小哈教程网 地址: 犬小哈教程网 简介:少量哈士奇的技术问答漫画很有意思。 推荐指数:? 15、原创技术大联盟 地址: 原创技术大联盟 简介:优秀的技术博主实在太多了,列不完,也看不完,这里有一个导航页https://www.songma.com/news/txtlist_i66992v.html
7.五分钟学算法五分钟学算法浏览人数已经达到0,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:五分钟学算法的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要https://www.colabug.com/sites/13534/
8.吴师兄学算法五分钟学算法吴师兄学算法(www.cxyxiaowu.com)提供许多数据结构与算法学习的基础知识, 涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。https://www.cxyxiaowu.com/
9.五分钟学算法链接直达手机查看 GitHub 42000 Star,全球排名 79 。小吴讲算法,图解面试算法,来和程序员小吴一起学算法吧,学习如何刷力扣(LeetCode),掌握如何学习数据结构。五分钟学算法官网,一个算法学习的网站,图解力扣算法,看动画,刷力扣,备面试,跳槽涨薪美滋滋。https://www.toolmao.com/sites/1338.html
10.五分钟学算法个人介绍 公众号【五分钟学算法】个人网站:https://www.cxyxiaowu.com 他关注的专题/文集/连载 他喜欢的文章 他创建的专题 LeetCodeAnimation 五分钟学算法 在PPT动画中学算法 从零开始学Swift 他的文集 日记本 新媒体管家发布 五分钟学算法 Python https://www.jianshu.com/u/c6ad3f2ed2d6
11.有哪些高质量的自学网站?再推荐几个同类型网站: 25、五分钟学算法(http://cxyxiaowu.com/) 一个完全免费的算法学习网站。 有很多的算法题和概念解释,甚至面试的攻略,适合新手的学习和进阶。 漫画式的教学,将复杂的内容深入浅出,效果很棒! 26、菜鸟教程(http://runoob.com/) https://www.douban.com/note/767851363/
12.五分钟学算法摘要: 本文首发于公众号「五分钟学算法」,是图解 LeetCode 系列文章之一。 个人网站:https://www.cxyxiaowu.com 动态规划 1 概念 动态规划算法是通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推(或者说分治)的方式去解决。在学习动态规划之前需要明确掌握几个重要 阅读全文 posted @ 2019-11-15 https://www.cnblogs.com/fivestudy/
13.算法是什么?初学者必看!,教育,高等教育,好看视频算法是什么?初学者必看! 百度文库 53万粉丝 · 76万个视频百度文库官方账号 关注 接下来播放自动播放 01:05 冉莹颖11岁儿子身高只有136 十二不惑 13万次播放 · 452次点赞 01:06 61岁钱小豪自曝健康状况,否认患癌以及糖尿病,透露暴瘦40磅原因 星知道STAR 5.3万次播放 · 122次点赞 12:02 战火连天:女土匪https://haokan.baidu.com/v?pd=wisenatural&vid=6851353270577964344
14.五分钟学算法青少年人工智能资源与创新平台五分钟学算法授课教师:王晓茹价格免费学习有效期 长期有效 免费加入 简介 学习目录简介 缜密的思维,形象的语言,妙绝的思路,再难的算法,也能信手拈来,娓娓道给你听! 王晓茹,博士,任教于北京邮电大学计算机学院,副教授、硕士生导师。曾在美国MIT(麻省理工学院)和美国PSU(波特兰州立大学)访问学习。现任中国人工智能https://yuanzhuo.bnu.edu.cn/goods/show/33
15.算法五分钟算法小知识:学习数据结构和算法的框架思维收藏 https://developer.aliyun.com/ask/283137
16.吴师兄学算法五分钟学算法吴师兄学算法-五分钟学算法_致力于让每个小白都能看懂每一道算法题 吴师兄学算法官网打不开的几种可能原因及解决方案 如果你经常无法打开"吴师兄学算法官方网站",可能有以下三种原因。这里有一些解决方案: 一、软件屏蔽:一些软件如微信或QQ可能默认屏蔽一些站点。请使用手机浏览器打开该网址,而不是微信/QQ的内置浏览https://pidoutv.com/sites/27782.html
17.www.kaineng.cn/qyzp.shtml全场库明加出战33分钟,22投13中,三分6中3爆砍全场最高的33分,外加6篮板2助攻1盖帽。 末节面对几度掀起反扑浪潮的火箭队,库明加多次打进关键球,最终带队二,极品美女啊啊啊被干的网站,风间由美sm 三,小恶魔痴女幼妻,四虎avwww 四,捅肚脐|vk,啊老板轻点操死我啊啊啊昂 五,美女妹被操视频,3w点儿av点chttps://www.kaineng.cn/qyzp.shtml
18.leetcode算法题目动画解析文章最新首发于微信公众号 吴师兄学算法,您可以关注获取最新的文章。 为了帮助大家更好的入门学习算法,经过半年的积累,我给大家整理了《剑指 Offer》系列的四十道题目,都是算法面试的高频题目,每一道题目我都提供详细的分析、精美的配图、易于理解的动画视频,适合那些第一次刷题的同学,当然,也适合重复刷题的老手再次https://github.com/MisterBooo/LeetCodeAnimation
19.五分钟弄懂CSP比赛报名的官方网站为https://www.noi.cn/,这里有官方关于 CSP-J 的更多介绍。 信息学相关比赛的分类 参加信息学比赛,按打怪升级的过程,可以是从 GESP 考级开始。GESP 每 3 个月就有一次考级,可以及时检验学习成果。平均 3 个月就可以完成一个级别的知识学习,在学习初期,正反馈的频率还比较高。 https://blog.devtang.com/2024/09/17/cspj-introduction/
20.五分钟弄懂有点难度的排序:堆排序腾讯云开发者社区Go代码实现 Java代码实现 Python代码实现 JavaScript代码实现 如果你是iOS开发者,可以在GitHub上https://github.com/MisterBooo/Play-With-Sort-OC获取更直观可调试运行的源码。 你可以在公众号 **五分钟学算法** 获取更多排序内容。https://cloud.tencent.com/developer/article/1366827
21.BoostKit大数据业界趋势鲲鹏大数据组件增强特性和典型配置鲲鹏BoostKit CDN使能套件聚焦CDN开源组件可用性和CDN缓存节点吞吐量低、时延大等问题,提供CDN主流组件的开源使能和性能调优指南,通过使能鲲鹏处理器内置的RSA加速引擎,对RSA2048算法进行硬件卸载,同时提供了NUMA优化等手段,以便充分发挥鲲鹏处理器多核优势,助力客户CDN缓存节点提供更大吞吐量,实现更低时延。 https://developer.huawei.com/consumer/cn/blog/topic/03898238728230088
22.→米兰官方手机app网站本赛季至今,在比赛最后五分钟分差在五分或五分以内的情况下,没有哪支球队打的场次比火箭13场)更多了 7. 「强烈推荐」 米兰官方手机app网站官网-APP下载支持:winall/win7/win10/win11系统类型:米兰官方手机app网站下载(2024全站)最新版本IOS/安卓官方入口V6.25.95.4(安全平台)登录入口http://www.share.1liusuanlv.cn/rto/detail/pbhtu.html
23.算法希尔排序51CTO博客五分钟学算法关注 由于LeetCode上的算法题很多涉及到一些基础的数据结构,为了更好的理解后续更新的一些复杂题目的动画,推出一个新系列 ---《图解数据结构》,主要使用动画来描述常见的数据结构和算法。本系列包括十大排序、堆、队列、树、并查集、图等等大概几十篇。 希尔https://blog.51cto.com/u_15054042/4236163
24.试讲)须知和学科岗位分布一览表四、每位考生备课时间 10 分钟,试讲时间 10 分钟,备课 教材由考生自备,考生讲课时不携带教材、教参等资料,只允 许携带统一发放的 10 分钟内使用的备课纸。 五、考生不得携带手机、电话手表等电子通讯工具进入候 考室、备课室和面试室,面试期间考生不得透露本人姓名、工 http://www.wolong.gov.cn/bmgsgg/29008.html