深度学习的三种学习模式介绍

深度学习是一个广阔的领域,它围绕着一种形态由数百万甚至数十亿个变量决定并不断变化的算法——神经网络。似乎每隔一天就有大量的新方法和新技术被提出来。不过,总的来说,现代深度学习可以分为三种基本的学习范式。每一种都有自己的学习方法和理念,提升了机器学习的能力,扩大了其范围。

混合学习——现代深度学习方法如何跨越监督学习和非监督学习之间的边界,以适应大量未使用的无标签数据?

复合学习——如何以创造性的方法将不同的模型或组件连接起来,以生成一个大于各部分之和的复合模型?

简化学习——出于性能和部署目的,如何减少模型的规模和信息流,同时保持相同或更强的预测能力?

混合学习

这种范式试图跨越监督学习和非监督学习之间的界限。由于有标签数据缺乏且成本高,所以常常在业务上下文中使用。从本质上说,混合学习是对下面这个问题的回答:

如何使用监督方法解决非监督问题?

首先,半监督学习在机器学习领域取得了良好的进展,因为它只需要很少的有标签数据就能够在监督问题上有非常好的表现。例如,一个设计良好的半监督式GAN(生成式对抗网络)只需要25个训练样本,就能在MNIST数据集上获得了超过90%的准确率。

半监督学习是针对有大量无监督数据和少量有监督数据的数据集而设计的。传统上,监督学习模型只在一部分数据上进行训练,无监督模型则在另一部分数据上进行训练,而半监督模型则可以将有标签数据与从无标签数据中提取的见解结合起来。

半监督GAN(简称SGAN)是对标准生成式对抗网络模型的改写。判别器输出0/1表示图像是否生成,它也输出项的类别(多输出学习)。

这是基于这样一种想法,即通过判别器学习区分真实的和生成的图像,它能够学习它们的结构而不需要具体的标签。通过少量标签数据的额外增强,半监督模型就可以在少量监督数据的情况下实现最高的性能。

要了解关于SGAN和半监督学习的更多内容,请查看这里:

GAN还参与了混合学习的另一个领域——自监督学习,在这种学习中,非监督问题被明确地定义为监督问题。GAN通过引入生成器人为地创建监督数据;创建标签来识别真实/生成的图像。在无监督的前提下,创建了一个有监督的任务。

或者,考虑使用编码器-解码器压缩模型。在最简单的形式中,它们是中间有少量节点(表示某种瓶颈压缩形式)的神经网络。两端分别是编码器和解码器。

网络被训练成产生与输入向量相同的输出(从无监督数据人为地创建监督任务)。由于故意在中间设置了瓶颈,所以网络不会被动地传递信息;相反,它必须找到最好的方法将输入内容保存到一个小的单元中,这样,解码器就可以再次合理地对它解码。

训练完成后,将编码器和解码器分开,用于压缩或编码数据的接收端,以极小的形式传输信息,而又几乎不丢失数据。它们还可以用来降低数据的维数。

在对每个类进行解释之后(例如,类A表示对产品的抱怨,类B表示积极的反馈,等等),可以使用像BERT这样的深层NLP架构将新文本分类到这些类中,所有这些都是使用了完全未标记的数据,并将人的参与降至最低。

这又是一个将非监督任务转换为监督任务的有趣应用。在一个绝大多数数据都是非监督数据的时代,通过混合学习,在监督学习和非监督学习之间创造性地架起一座桥梁,具有巨大的价值和潜力。

复合学习

复合学习为的是利用几种模式的知识,而不是一种。该方法认为,通过独特的组合或信息注入——包括静态和动态——与单一模式相比,深度学习能够在理解和性能方面不断地深入。

迁移学习是复合学习的一个明显的例子,它的前提是模型的权重可以从一个在类似的任务上预先训练过的模型中借用,然后在特定任务上进行微调。像Inception或VGG-6这样的预训练模型,其结构和权重被设计成可以区分几种不同类别的图像。

类似地,在NLP神经网络中,词嵌入会根据单词之间的关系在一个嵌入空间中将单词映射到实际距离较近的其他单词(例如,“apple”和“orange”的距离比“apple”和“truck”的距离更小)。像GloVe这样预先训练好的嵌入可以放到神经网络中,从单词到有意义的数字化实体的有效映射开始。

较为隐秘的一点是,竞争也能促进知识增长。首先,生成式对抗网络借鉴了复合学习范式,从根本上使两个神经网络相互竞争。生成器的目标是欺骗判别器,而判别器的目标是不被骗。

下文会将模型之间的竞争称为“对抗性学习”,不要与另一种设计恶意输入并利用模型弱决策边界的对抗性学习相混淆。

对抗性学习可以增强模型,通常是不同类型的模型,在对抗性学习中,一个模型的性能可以用其他模型的性能来表示。在对抗性学习领域还有很多研究需要做,生成式对抗网络是这个子领域唯一突出的创新。

另一方面,竞争性学习与对抗性学习类似,但是逐节点执行的:节点竞争对输入数据的一个子集作出响应的权利。竞争性学习是在一个“竞争层”中实现的,在这个“竞争层”中,除了某些权重随机分布外,神经元都是相同的。

将每个神经元的权值向量与输入向量进行比较,然后激活(output=1)相似度最高的“赢者全拿”神经元,其余神经元“不激活”(output=0),这种无监督技术是自组织映射和特征发现的核心组成部分。

复合学习的另一个有趣的例子是神经结构搜索。简而言之,在强化学习环境中,神经网络(通常是RNN)通过学习为数据集生成最好的神经网络——算法为你找出最好的架构!

你可以点击这里了解更多理论知识:

点击这里查看其Python实现:

集成(Ensemble)方法也是一种重要的复合学习方法。深度集成方法已经被证明非常有效,而且,端到端模型叠加,像编码器和解码器,已经变得越来越流行。

复合学习的主要目的是找出在不同模型之间建立联系的独特方法。它的前提是:

单个模型,即使是一个非常大的模型,其性能也不如几个小模型/组件,其中每一个都被委派专门处理一部分任务。

例如,考虑为一家餐馆构建一个聊天机器人的任务。

我们可以将其划分为三个独立的部分:寒暄/闲聊、信息检索和动作,并针对每个部分单独设计一个模型。或者,我们可以委托一个模型来执行所有这三个任务。

复合模型性能更好,同时占用的空间更少,这应该没什么可奇怪的。此外,这些非线性拓扑可以用Keras函数式API这样的工具轻松构建。

为了处理越来越多样化的数据类型,如视频和三维数据,研究人员必须建立创造性的复合模型。

点击这里阅读更多关于复合学习及其未来展望的内容:

简化学习

模型的规模,尤其是在NLP领域(深度学习研究的中心),正在大幅增长。最新的GPT-3模型有1750亿个参数。把它和BERT比较就像把木星和蚊子比较一样(并不夸张)。未来,深度学习的模型会更大吗?

很可能不会。诚然,GPT-3非常强大,但历史一再表明,“成功的科学”是那些对人类影响最大的科学。当学术偏离现实太远时,通常会淡出人们的视线。这就是神经网络在20世纪末期被短暂遗忘的原因,因为可用的数据太少了,以至于这个想法,无论多么巧妙,都是没用的。

GPT-3是另一种语言模型,它可以写出令人信服的文本。它的应用在哪里?是的,它可以生成查询的答案。不过,还有更高效的方法来实现这一点(例如,遍历一个知识图,并使用一个更小的模型如BERT来输出答案)。

考虑到计算能力的枯竭,GPT-3的庞大规模(更不用说更大的模型)似乎是不可行的,或者是不必要的。

“摩尔定律有点过时了。”——微软首席执行官SatyaNadella

相反,我们正在走向一个嵌入式人工智能的世界,智能冰箱可以自动订购食品杂货,无人机可以自行导航飞遍整个城市。强大的机器学习方法应该能够下载到个人电脑、手机和小型芯片上。

这就需要轻量级人工智能:在保持性能的同时使神经网络更小。

嵌入层显式地将实体映射到具有物理意义的数值,这样负担就不会落在其他参数上。有一种解释说,Dropout层在对输入的某些部分进行操作时会显式地屏蔽参数。L1/L2正则化确保网络利用了所有的参数,而且每个参数都不会太大,并最大化了每个参数的信息价值。

随着专用层的建立,网络对更复杂、更大数据的要求越来越少。其他最新方法明确地寻求简化网络。

神经网络剪枝试图去除对网络输出没有价值的突触和神经元。通过剪枝,网络可以在去除大部分网络节点的情况下保持其性能。

其他方法,如PatientKnowledgeDistillation,可以将大型语言模型压缩成可下载到用户手机上的形式。对于支撑谷歌翻译的谷歌神经机器翻译(GNMT)系统来说,这种考虑是有必要的,该系统需要创建一个能够离线访问的高性能翻译服务。

例如,前面提到的对抗性输入是设计用来欺骗网络的恶意输入。可以用喷漆或贴纸来欺骗自动驾驶汽车,使其远远超过限速。负责任的简化学习不仅是使模型足够轻量化,而且要确保它能够适应数据集中没有表示出的极端情况。

总结

混合学习试图跨越监督学习和非监督学习的边界。像半监督和自监督学习这样的方法能够从无标签数据中提取有价值的见解,当无监督数据的数量呈指数增长时,这些见解就变得非常有价值。

随着任务变得越来越复杂,复合学习将一个任务分解为几个更简单的组件。当这些组件一起工作或者相互对抗,就可以得到一个更强大的模型。

THE END
1.简述翻转课堂理念下混合式教学的实施流程翻转课堂是课堂教学组织的一种新形式,在信息时代,课程教师提供以视频为主的学习方式,老师和学生一起完成课堂观看和学习,对课堂上的问题进行互动交流的新教学模式。传统教学方法的改变和“以学生为中心”是翻转课堂的核心。在翻转课堂理念下不仅能够促进混合式教学的发展,还能改变单一的学习方式,激发学生的积极性和主动https://xue.baidu.com/okam/pages/strategy-tp/index?strategyId=134672979309006&source=natural
2.学习的两种模式学习模式有两种,一种为主动学习,一种为被动学习。 那么何为主动学习?何为被动学习呢? 主动式学习就是懂得主动花时间找到导致问题的深层原因和改变问题的正确方式。说白了就是学习者自身存在主动性,在学习的过程中遇到问题时,不是绕路而行或询问他人,而是愿意自己去思考,寻求解决问题的方式方法,直至解决掉问题。 https://www.jianshu.com/p/27c9dd6761e6
3.学习模式学术百科学习模式 亦称“行为模式”。是解释精神疾病原因的一种观点。这种观点强调广义学习的作用,认为对精神疾病的研究应集中在可观察到的行为领域,而不要只去研究所谓内心隐藏的心理冲突。一个人发生变态行为,其主要原因既不是由于大脑的缺陷和损伤,也不在于人的其他动力因素和无意识, https://wiki.cnki.com.cn/HotWord/75732.htm
4.学习模式是什么意思学习模式的翻译音标读音用法例句学习模式 释义 learning model 学习模式,社会学习模型; 行业词典 计算机 learning modehttps://m.iciba.com/%E5%AD%A6%E4%B9%A0%E6%A8%A1%E5%BC%8F
5.学习模式学习模式(1) 学习模式(Learning style)是假定能够使个人达到最佳学习状态的方法。“学习模式”的思想起源于1970年代,近年来获得普及。这一理论提议教师应该评估其学生的学习模式,并使其课堂教学方法能够最适合每个学生的学习模式。 快速导航 词条图册 中文名 https://baike.sogou.com/v8818186.htm
6.几种模式学习财富号几种模式学习 炒股第一步,先开个股票账户 模式一:首板模式 一、模式简介: 当一个题材板块爆发的第一天,也就是爆发当日,有首板的都先上车,当日就努力地去寻找筹码结构、图形、价格、盘子最优的个股,也就是低价、小盘、形态好看的首板个股,次日去弱留强,一定是去弱留强。https://caifuhao.eastmoney.com/news/20220807114106084420550
7.自主探究——数字化学习教学模式的探讨不难发现,数字化学习不仅是改变传统教学结构,实施创新人才培养,而且是符合化学新课程标准要求的。在建构主义学习理论指导下的自主探究 数字化学习模式强调问题情境的创设,强调在教学过程中的师生交流、生生交流,强调利用网络资源为学生自主探究学习提供丰富的资源环境和广阔的空间。https://www.fwsir.com/jy/html/jy_20070330220425_30775.html
8.国家开放大学的学习模式有哪些?开大也叫国家开放大学,是成人提升学历的一种方式,不属于全日制,而是非全日制学历,经过电子注册,学信网可查,可以用于找工作、升职加薪、评定职称、出国留学等众多用途。那么,国家开放大学的学习模式有哪些?如果各位也有这个疑惑,接下来就和小编一起来看看吧! https://www.eol.cn/kaoshi/gk-wenda/2024032116110.html
9.主题板块化学习教学模式初探3.注重整体性学习,板块化集中,教学内容的分类统一,拓展学生课外知识,提高能力。 (二)创新之处 我在教学中具体做了以下六种课堂教学模式的探索:主题词语过关、主题背诵、主题课文、主题语文园地、主题阅读、主题作文。现将探究出的六种课型模式简介如下: https://wyxx.jndjg.cn/index.php?r=space/school/portal/content/view&id=603651
10.混合式学习,以学习者为中心的新型教学形式随着新ICT技术的蓬勃发展,传统教学模式的地位逐步被新的教学模式所替代,以学习者为中心的教学理念已经深入人心,学习者需要的不再是单一的课程授课,而是可以按需获取、以个人学习为中心、能充分利用各种新技术和新方法的新型学习模式。以学习者为中心,需要充分尊重学生个体差异,将教师从传统的把关人转变为学生的辅导者,https://blog.csdn.net/cloud_architect/article/details/73793730/
11.如果不能向他人简单解释一件事,就还没有真正弄懂它(费曼学习法(用费曼学习法的核心,是把复杂的知识简单化,以教代学,让输出倒逼输入。它对输出思维极其推崇,认为输出就是最强大的学习力,能不卡壳复述学习内容,才是学全;它对简化思维格外重视,认为把高深的知识用平实的话说出来,才是学透费曼学习法提供了四个关键词:Concept(概念);Teach(以教代学);Review(评价);Simplify(简化)https://book.douban.com/review/13471484/
12.生成学习理论知多少?——生成学习是什么?教师研修生成学习理论是1974年由美国教育心理学家梅林·C·维特罗克(Merlin C. Wittrockti)提出的。生成学习是以学生为中心,积极构建有意义的学习活动的过程。维特罗克吸取并借鉴了信息加工理论的研究成果,结合自己对学习过程的研究,提出生成学习模式的信息加工流程图,如图1所示。 http://www.89school.com/index.php?a=show&catid=23&id=8642