五分钟了解机器学习的基本概念

1、人工智能、机器学习、深度学习之间的关系

总的来说,深度学习时机器学习的一个子类,而机器学习又是人工智能的一个子类。

人工智能是一个非常宽泛的概念,它可以代指任何形式的蕴含某些智能特性的技术,并非特指某一特定技术领域。而机器学习则指一个特定领域,用于指代人工智能的一个特定类别。而进一步的,机器学习也包含很多技术,深度学习就是其中之一。

简单地说,机器学习其实就是一种对数据的建模技术,(就我个人看来也像是一种数据处理的算法模型),是一种从数据抽象出模型的技术。数据可以是各种信息,如文档、图像等等,模型就是机器学习的产物。

//就我个人的理解来看,机器学习就是通过海量的数据集合,来对你所建立的模型进行训练,使其达到一个预期的效果,最终生成一个可靠的模型。

机器学习无法基于错误的训练数据来实现预期目标,就像给新生的婴儿几个苹果,一会儿告诉你是苹果,一会儿告诉你是梨子,一会儿又说是西瓜,他永远不会知道到底什么是苹果。所以,获取能够充分反应实际领域据特征的无偏训练数据至关重要。

这里需要提到一个概念,泛化(generalization):确保模型对于训练数据与输入数据能够获得一致性能的处理过程。机器学习能否成功很大程度上取决于泛化的有效程度。

泛化过程失效的主要诱因之一就是过拟合。这是一个训练模型时十分常见的问题。下面举一个例子进行简单的描述。

例如,我们需要利用机器学习对两类数据点进行分类。我们以两类数据的特征坐标画出一幅散点图:

此时我们需要建立一个模型对两者进行分类,实际上也就是得到一条区分两者的边界

如图所示,虽然存在一定的数据点偏离,但曲线似乎是一条比较合理的边界。

如果我们要以完美的边界对所有数据点进行划分呢?能否正确地反映普适的行为特征呢?

完美的边界如上图所示,针对这样的模型,如果有一个新的数据(正方形)输入,能否得到一个准确的划分呢?

这个完美的边界模型将黑色方形划分为△,但实际上它应该属于黑色圆更加合理,为什么对训练数据的100%准确率匹配会产生问题呢?

其实,在大量的训练数据中,存在的大量的噪声,就比如上述的一些偏离了的数据点。但机器学习无法区分噪声,如果过分要求区分所有训练集数据,他将会生成一个不合理的模型,而对后续所需要判定的实际数据的判定产生误差。

如果认为训练数据中的每一个元素都是准确的,并且精准匹配模型,这将会得到一个普适性较低的模型,这就是过拟合。就比如,你拿出三个苹果,十分强硬地和婴儿宝宝说这就是苹果,其他的就算很像也不是苹果,只有这三个才是苹果。这样,如果再拿来一个新的没有见过的苹果,婴儿宝宝也会觉得这个东西不是刚见过的苹果,所以判断失误,这其实就是过拟合的概念。

这里介绍两种克服过拟合问题的典型方法:正则化和验证。

(1)正则化:是一种力求构建极简模型的数值方法。精简后的模型能以较小的性能代价,避免过拟合的影响。类似于前文讨论的例子,复杂的曲线更倾向于过拟合。而简单的曲线虽然未能正确划分部分数据点,但能更加好的反映总体特征。

(2)验证:验证是指预留一部分训练数据,并利用其监控模型性能的过程。验证数据集不参与训练过程。如果训练过程所生成的模型对预留输入数据的处理效果不佳,则认为存在过拟合。

验证的方法十分常见,也拿之前说的认识苹果来说,相当于你在教婴儿“这2个是苹果”之后,再拿出另一个苹果出来,如果婴儿宝宝能认出来也是苹果,说明教的效果好,反之如果不认识,那就是过拟合的意思了。

在利用验证技术的机器学习过程包括以下几步:

(1)将训练数据分为两组:一组用于训练,另一组用于验证。根据经验规律,训练数据与验证数据的比例为8:2;

(2)使用训练数据对模型进行训练;

(3)利用验证数据评估模型效果。如果效果满意。结束训练;如果效果不显著,修改模型重新进行训练。

这里再介绍一种验证方法——交叉验证

简单的说,交叉验证就是不保留数据的原始划分,而是重复划分数据。比例一定,但数据划分范围不同,是从训练过程中随机选出的。

主要分以下三个大类:

监督学习的应用最为广泛。在监督学习中,每个训练数据集均由输入与标准输出构成的数据对构成。标准输出是模型对该输入应生成的预期结果。

{input,correctoutput}

类似于之前的教婴儿认识苹果,苹果这个物体就是数据,它包含苹果的各种特征,比如颜色、大小、触感等等,对用的输出结果就是苹果,婴儿需要学会通过大脑收集到的信息对其进行判断。这就是监督学习。

而在无监督学习中,训练数据仅包含输入,而不包含标准输出。

{input}

无监督学习通常用于分析数据的特征,并对数据进行预处理。再类比于教婴儿学习苹果,无监督学习相当于没有人告诉宝宝啥是苹果和梨子,而是把一堆水果塞给宝宝,让他自己根据特征分出两个种类,这个过程就相当于提取物体的关键特征。

增强学习利用输入、某些输出以及评分组成的数据集作为训练数据。它通常用在需要优化折中的情况,例如控制和博弈问题。

{input,someoutput,gradeforthisoutput}

监督学习最常见的两类应用就是分类(classification)和回归(regression)。

{input,class}//class种类即对应这数据的标准输出。

回归不判定类别,而是预测数值。针对对以后数据的学习,得到一个模型,可对新输入的数据进行值的预测。比如天气预测、股票预测等等。

总之,分类是分析研究利用模型来判别输入数据属于哪一种类别;回归是分析利用模型来估计数据的趋势。

THE END
1.五分钟学算法摘要: 本文首发于公众号「五分钟学算法」,是图解 LeetCode 系列文章之一。 个人网站:https://www.cxyxiaowu.com 动态规划 1 概念 动态规划算法是通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推(或者说分治)的方式去解决。在学习动态规划之前需要明确掌握几个重要 阅读全文 posted @ 2019-11-15 https://www.cnblogs.com/fivestudy/
2.五分钟学算法五分钟学算法的简介 五分钟学算法是一个致力于将数据结构与算法讲清楚为主的网站。 Five-minute learning algorithm is a dedicated to explain the data structure and algorithm clearly The main website. 五分钟学算法的收录查询 五分钟学算法的最新快照 https://www.colabug.com/sites/13534/
3.五分钟学算法链接直达手机查看 GitHub 42000 Star,全球排名 79 。小吴讲算法,图解面试算法,来和程序员小吴一起学算法吧,学习如何刷力扣(LeetCode),掌握如何学习数据结构。五分钟学算法官网,一个算法学习的网站,图解力扣算法,看动画,刷力扣,备面试,跳槽涨薪美滋滋。https://www.toolmao.com/sites/1338.html
4.吴师兄学算法五分钟学算法吴师兄学算法(www.cxyxiaowu.com)提供许多数据结构与算法学习的基础知识, 涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。https://cxyxiaowu.com/
5.五分钟学算法官方网站理想股票技术论坛五分钟学算法官方网站,五分钟学算法,官方网站,算法教程,在线学习,编程教程 五分钟学算法官方网站,提供丰富的算法教程,在线学习编程知识,轻松掌握各类算法技巧。 公式法详解与应用实例视频教程 [股票软件指标公式技术交流] 刻骨2010 2024-8-18 相关标签:五分钟学算法官方网站 数学公式软件app 计算题公式法的公式 https://www.55188.com/tag-08617563.html
6.全网最全程序员学习网站汇总,还不赶快收藏地址: 五分钟学算法 简介:有少量非常不错的数据结构、算法相关的内容。 推荐指数:? 13、犬小哈教程网 地址: 犬小哈教程网 简介:少量哈士奇的技术问答漫画很有意思。 推荐指数:? 15、原创技术大联盟 地址: 原创技术大联盟 简介:优秀的技术博主实在太多了,列不完,也看不完,这里有一个导航页https://www.songma.com/news/txtlist_i66992v.html
7.五分钟学算法个人介绍 公众号【五分钟学算法】个人网站:https://www.cxyxiaowu.com 他关注的专题/文集/连载 他喜欢的文章 他创建的专题 LeetCodeAnimation 五分钟学算法 在PPT动画中学算法 从零开始学Swift 他的文集 日记本 新媒体管家发布 五分钟学算法 Python https://www.jianshu.com/u/c6ad3f2ed2d6
8.五分钟学算法青少年人工智能资源与创新平台五分钟学算法授课教师:王晓茹价格免费学习有效期 长期有效 免费加入 简介 学习目录简介 缜密的思维,形象的语言,妙绝的思路,再难的算法,也能信手拈来,娓娓道给你听! 王晓茹,博士,任教于北京邮电大学计算机学院,副教授、硕士生导师。曾在美国MIT(麻省理工学院)和美国PSU(波特兰州立大学)访问学习。现任中国人工智能https://yuanzhuo.bnu.edu.cn/goods/show/33
9.五分钟学算法致力于把算法讲清楚AA影视(www.aa4.cc)是一家专业的电影资源网站,我们致力于为用户提供高质量的电影资源在线观看服务。我们拥有丰富的电影资源库,包括最新上映的电影、热门电视剧、经典老片等,所有影片均支持高清播放。A 收藏 555电影 最新Netflix新剧、韩国电影免费在线观看 https://www.bidianer.com/site/114439
10.吴师兄学算法五分钟学算法吴师兄学算法 (www.cxyxiaowu.com) 专注于提供数据结构与算法学习的基础知识,涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。它是一个非常有用的资源平台,特别适合那些希望提高编程技能和算法理解能力的学习者。 吴师兄学算法-五分钟学算法_致力于让每个小白都能看懂每一道算法题 https://pidoutv.com/sites/27782.html
11.黑马程序员3天快速入门python机器学习天边远霞默认收藏夹传智教育·黑马程序员人工智能研究院全新录制的人工智能入门教程全部配套资源领取方式:关注黑马程序员公众号,回复关键词:领取资源02 === 该阶段是机器学习的入门课程,主要介绍一些经典的传统机器学习算法,如分类算法:KNN算法,朴素贝叶斯算法,逻辑回归,决策树算法以及随机森林;回归算法:线性回归,岭回归;聚类算法:KMeans算https://www.bilibili.com/list/ml1360211844
12.来自凯文·凯利的40条人生建议你就能跨越“不能”和“学”之间的界线。 关于创造与生活 1、 对一个东西最好的批评 是做出新东西来替代它。 2、 成功最可靠的方法, 是你自己定义成功。 先射箭, 然后在射中的地方, 画一个靶心。 3、 新想法产生五分钟后, 就会从你的头脑中消失。 https://36kr.com/p/2427137908531971
13.BoostKit大数据业界趋势鲲鹏大数据组件增强特性和典型配置鲲鹏BoostKit CDN使能套件聚焦CDN开源组件可用性和CDN缓存节点吞吐量低、时延大等问题,提供CDN主流组件的开源使能和性能调优指南,通过使能鲲鹏处理器内置的RSA加速引擎,对RSA2048算法进行硬件卸载,同时提供了NUMA优化等手段,以便充分发挥鲲鹏处理器多核优势,助力客户CDN缓存节点提供更大吞吐量,实现更低时延。 https://developer.huawei.com/consumer/cn/blog/topic/03898238728230088
14.PHP快速排序算法实现的原理及代码详解资源下列动图来自五分钟学算法,演示了快速排序算法的原理和步骤。 步骤步骤: 从数组中选个基准值 将数组中大于基准值的放同一边、小于基准值的放另一边,基准值位于中间位置 递归的对分列两边的数组再排序 代码实现 function quickSort($arr) { $len = count($arr); https://download.csdn.net/download/weixin_38684976/14010885
15.分数混合运算教学设计(精选7篇)本节课主要是让学生在自学指导的指引下进行自学,在自学过程中,重点解决分数乘除混合运算的问题,“送给幼儿园多少顶帽子”,这个问题实质上是先求“6米里有几个2/5米(即一共制作了多少顶帽子)”,再求“15的2/3是多少”,由于学生前面已经学过求一个数的几分之几是多少,已经有了一定的'基础,因此在解决这一https://xiaoxue.ruiwen.com/jiaoxuesheji/184931.html
16.整理了全网最全Java程序员学习网站大全,你值得拥有地址:五分钟学算法 简介:有一些非常不错的数据结构、算法相关的内容。 推荐指数:? 13、犬小哈教程网 地址:犬小哈教程网 简介:一些哈士奇的技术问答漫画很有意思。 推荐指数:? 15、原创技术大联盟 地址:原创技术大联盟 简介:优秀的技术博主实在太多了,列不完,也看不完,这里有一个导航页,有https://zhuanlan.zhihu.com/p/335515169
17.运维基础负载 衡量当前系统的一个繁忙程度 如何衡量? 数字达到你cpu核心的数量 cpu 4核心 === 如果负载已经到4 说明已经繁忙 cpu 2核心 === 如果负载已经到2 说明已经繁忙 [root@oldboyedu ~]# cat /proc/loadavg 0.00 0.01 0.05 1/126 1484 最近1分钟 最近五分钟 最近15分钟https://www.west.cn/info/html/caozuoxitong/Linux/20200514/4670298.html
18.五分钟弄懂有点难度的排序:堆排序腾讯云开发者社区Go代码实现 Java代码实现 Python代码实现 JavaScript代码实现 如果你是iOS开发者,可以在GitHub上https://github.com/MisterBooo/Play-With-Sort-OC获取更直观可调试运行的源码。 你可以在公众号 **五分钟学算法** 获取更多排序内容。https://cloud.tencent.com/developer/article/1366827
19.华为认证大数据方向(HCIEHCIE-Big Data认证定位于大数据分析领域中大型分布式并行处理数据仓库平台的架构原理、优化设计、应用开发和大数据挖掘领域的基础理论、常用挖掘算法、应用设计以及开发,旨在推动业界大数据行业的专家型人才培养。 HCIE-Big Data认证包括但不仅限于:(1)华为企业级的大型并行处理分布式数据仓库平台FusionInsight LibrA的架构、功http://m.edufly.cn/huawei/hcie/549.html
20.leetcode算法题目动画解析文章最新首发于微信公众号 吴师兄学算法,您可以关注获取最新的文章。 为了帮助大家更好的入门学习算法,经过半年的积累,我给大家整理了《剑指 Offer》系列的四十道题目,都是算法面试的高频题目,每一道题目我都提供详细的分析、精美的配图、易于理解的动画视频,适合那些第一次刷题的同学,当然,也适合重复刷题的老手再次https://github.com/MisterBooo/LeetCodeAnimation
21.五分钟技术趣谈隐私计算之安全多方计算专用算法层是利用支撑技术层构建的安全多方计算协议,包括专用算法和通用框架。专用算法是指为了特殊问题所构建的特殊算法,效率较高,包括了四则运算,比较运算,矩阵运算等;通用架构是指可以满足大部分需求的隐私计算逻辑,虽然效率相比专用算法较低,但是适用范围更广。 https://www.51cto.com/article/704306.html