金风玉露一相逢,便胜却人间无数。——秦观《鹊桥仙》
连接流派
神经网络(NeuralNetwork):连接流派在机器学习领域的应用,之后扩展到包括计算机视觉、自然语言处理、语音识别、行动选择等几乎所有的人工智能子领域。
符号流派包括很多不同的技术,包括逻辑推理、基于规则的推理、专家系统等等。人工智能中的其它流派(如统计流派等)也大抵如此。然而,连接流派却非常神奇,因为它只包含一个技术,即神经网络。因此,连接流派和神经网络几乎是一个等同的名词,虽然前者是一个流派而后者是一个具体的技术。
前文提到,连接流派(即神经网络)受生物神经元结构的启发,构建人工神经元。每个神经元有着多个带有权重的输入,这些输入通过聚合之后,经过一个激活函数,产生输出。人工神经网络就是由许多这样的人工神经元组成的一个网络。
生物神经元vs人工神经元
这种组成可以有很多不同的方式,这就是神经网络的结构问题。
1、单层神经网络(Single-layerNeuralNetwork)
在麦克洛克和皮茨的神经网络创始论文中[1],神经网络的结构非常原始,只由输入层和输出层组成,而输入层和输出层是全连接的。也就是说,输入层所有的神经元都连接到输出层所有的神经元之上。麦克洛克和皮茨证明了这样的神经网络能够表达很多逻辑函数。
单层神经网络
2、双层神经网络(Multi-layerNeuralNetwork)
双层神经网络
双层神经网络在相邻层之间也是全连接的,即输入层所有的神经元都连接到隐层之上,而隐层的每个神经元都连接到输出层之上。但是,输入层到输出层没有直接的连接。
3、多层前馈神经网络(Multi-layerFeed-forwardNeuralNetwork)
如果在输入输出层中加入更多的隐藏层,我们就得到了多层前向神经网络,也称为多层感知机(Multi-layerPerceptron)。
多层感知机
和双层神经网络一样,多层感知机在连接上一般采取相邻层全连接的方式。
在多层神经网络中,神经网络的深度指的就是神经网络的层数。层数越多意味着神经网络越深。这个时候,我们称之为深度神经网络,其对应的机器学习就称为深度学习。
4、卷积神经网络(ConvolutionalNeuralNetwork)
随着层数的增加,神经网络就会变得越来越复杂,所需的计算量也会越来越大。
早在上世纪50年代,神经科学家发现视觉皮层某些神经元只分别对视野的中的某个小区域做出反应。这就意味着,如果以图片作为神经网络的输入的话,并不需要下一层的神经元对这个图片中的所有像素都进行信息处理,只需要处理其中的一个小区域(如下图中的小方块)就够了。这就是卷积(Convolution)的含义,这样可以大大地节省了神经网络计算的复杂程度[4]。
除了卷积之外,卷积神经网络也采用池化(Pooling)等思想降低网络复杂性。池化将某一层的一小簇神经元通过取平均值等方式合并到下一层的一个神经元,同样可以大为减少网络的规模。
假设神经网络的连接数总量恒定,卷积和池化可以使网络变得更深。
卷积神经网络
卷积神经网络也是前馈的。它和多层感知机一样,也是一层一层从输入层往输出层连接。但与多层感知机不同的是,卷积神经网络并不要求全连接,而替之以卷积和池化等方式。
5、循环神经网络(RecurrentNeuralNetwork)
前面介绍的网络统称层级网络,而循环神经网络并不在其中。顾名思义,循环神经网络里可以有循环,也就是说,从一个神经元出发,经过多次连接,有可能回到这个神经元本身。
长短程记忆网络LSTM
循环神经网络是个统称,所有具有环路结构的网络都可以称之为循环神经网络。但是,如果不对这些网络的结构加以约束,那么往往效果会较差。因此,循环神经网络中衍生出一些重要的子类,包括Hopfield网络[5]、长短程记忆网络(LongShort-TermMemory)[6]、注意力机制[7]、图神经网络(GraphNeuralNetwork)等等。
6、记忆网络(MemoryNetwork)
在经典的计算模型(如图灵机)中,记忆(Memory)起着重要的作用。而在上述神经网络模型中,记忆被隐式地隐藏在神经网络的结构和权重之中,并不是显式地有一个单独的记忆模块。
记忆网络
因此,一个很自然的想法是将显式记忆引入到神经网络[8]。如上图所示,控制器依然是一个有着输入和输入的(深度)神经网络。但是,它可以通过读写头和一个显式的记忆模块相互交互。
机器学习主要关心的就是在数据(输入、输出对)的基础上学习/模拟/近似一个函数(从输入到输出的一个映射)。人工神经网络提供了一个恰如其分的模型。神经网络有着输入和输出,而且这种输入和输出可以是任意的,只要他们能够被二进制表示。同时,神经网络上的可调节权重正是学习所需要的对象。神经网络的学习过程就是权重调节的过程。
[1]McCullochWS,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity.Thebulletinofmathematicalbiophysics,5(4):115-133,1943.
[2]MinskyM,PapertS.Perceptrons:AnIntroductiontoComputationalGeometry.Cambridge:MITPress,1969.
[3]WerbosP.BeyondRegression:NewToolsforPredictionandAnalysisintheBehavioralSciences(Ph.Dthesis).Cambridge:HarvardUniversity,1974.
[4]LeCunY,BottouL,BengioY,HaffnerP.Gradient-basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,1998,86(11):2278–2324.
[5]HopfieldJJ.Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities.ProceedingsoftheNationalAcademyofSciencesoftheUSA,1982,79(8):2554–2558.
[6]HochreiterS,JürgenS.LongShort-TermMemory.NeuralComputation,9(8):1735–1780.
[7]VaswaniA,ShazeerN,ParmarN,etal.AttentionisAllyouNeed.NeuralInformationProcessingSystems,2017:5998-6008.
[8]GravesA,WayneG,ReynoldsM,etal.Hybridcomputingusinganeuralnetworkwithdynamicexternalmemory.Nature,2016,538(7626):471-476.
作者介绍
周熠,现任张江实验室脑与智能科技研究院/上海脑科学与类脑研究中心认知智能研究组课题组长,研究员,中国科学技术大学兼职教授。研究方向为认知人工智能,主要的研究兴趣为如何受脑启发,深度融合基于逻辑的符号流派和基于神经网络的连接流派,及其在认知人工智能领域中的应用,包括AI+教育、自动智商测试、智能语言处理等。
墨子沙龙是以中国先贤“墨子”命名的大型公益性科普论坛,由中国科学技术大学上海研究院主办,中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等协办。
墨子是我国古代著名的思想家、科学家,其思想和成就是我国早期科学萌芽的体现,“墨子沙龙”的建立,旨在传承、发扬科学传统,建设崇尚科学的社会氛围,提升公民科学素养,倡导、弘扬科学精神。科普对象为热爱科学、有探索精神和好奇心的普通公众,我们希望能让具有中学及以上学力的公众了解、欣赏到当下全球最尖端的科学进展、科学思想。