类脑(受脑启发的)计算的问题与视觉认知
问题,在学科进展中的意义是不可否认的。一门学科充满问题,它就充满生命力,如果缺乏问题,则预示着该学科的衰落。正是通过解决问题,人们才能够发现学科的新方法、新观点和新方向。
引言:“有问题的学科才有生命力”—戴维希尔伯特
近年来,世界一些发达国家对脑科学研究投入了前所未有的热情,越来越多的科研经费涌入这一领域,也催生了信息领域对人工智能和类脑(受脑启发的)计算研究的新一轮高潮。人类的大脑具有感知、记忆、学习、推理和创造性思维,塑造了人的个性。类脑计算是以脑认知科学和神经科学研究成果为基础,借鉴人类感知、认知机理,建立受脑启发的、不同于现有冯诺依曼计算结构的信息组织、存储和处理的计算模式。这种计算模式对发展异构动态大数据处理、非结构化复杂模式信息分析与视觉场景理解计算的新理论及关键技术具有极其重要的意义。
本文围绕类脑(受脑启发的)计算的研究前沿及其存在的基本问题,强调类脑计算的研究必须面向具体问题,试图从脑网络连接机制及视觉认知的角度探讨类脑计算可能的实现途径和方法,介绍了选择性注意机制在视觉信息处理中的重要作用和实现方法,讨论了如何利用可塑的、时空动态演化的非线性关系网络来代替传统的基于定量数值的计算方法。本文还介绍了作者研究团队正在开展的可用于大规模神经网络计算的片上众核通信互连架构与软件支持环境的研究。
前言
图1类脑计算的一种基本架构
然而,至今我们对人类认知功能如何从复杂动态(时空演变)的大脑神经结构中产生,没有形成较为完整的认识。因此,目前探讨如何实现类脑计算就成为了一个充满争议和挑战的命题[3-4]。本文围绕类脑计算存在的基本问题,试图从脑网络连接机制、联想记忆及视觉认知的角度探讨类脑计算可能的实现途径和方法,并指出借鉴人类视觉感知与认知机理,寻求新的视觉表征与场景理解的计算模型是实现类脑计算的重要突破点之一。
1为什么当前再次聚焦类脑(受脑启发的)计算
类脑计算不是一个新命题。早在1982年,日本为了在计算机领域赶上和超过美国,制定了一项雄心勃勃的第五代计算机计划,其目标是突破冯诺依曼计算架构的局限性,发展出能够与人对话,翻译语言,解释图像,并且像人一样推理的机器。然而,该计划的命运是悲壮的,由于未能实现预期的目标,1992年日本政府不得不终止该计划。
近20年来,脑科学、计算机科学、人工神经网络理论、集成电路技术的长足进步,以及大数据时代的到来、非完整信息处理与知识推理、自然的人机交互、各类自主系统对智能感知与计算技术的需求,以及传统人工智能的局限,使得科学家们再次聚焦“类脑计算”[5]。
1.1大脑认知的层次和传统人工智能的局限性
人类大脑认知活动分为三个不同层次:直觉、形象思维和逻辑思维、灵感与顿悟[6],其中形象思维和逻辑思维是在人的意识控制之下进行的,而直觉、灵感与顿悟则是一种潜意识活动,是大脑的自主信息处理功能的具体表现。直觉、灵感与顿悟是人类在发明创造的过程中经常表现出来的认知活动。直觉是以知识经验为基础,跳跃地、直接抽象地识别事物的本质,直觉判断往往是为了迅速解决当前的问题,而灵感则是在某种偶然因素的启发下使问题得以顿悟。然而,人工智能的很多研究工作主要集中在完整信息(结构化或半结构化)的处理,用特征学习和定量计算的模式来实现大脑认知的“形象思维和逻辑思维”,将深度学习与概率网络结合,也可在一定程度上对完整信息进行直觉判断,而对于实现非完整信息的直觉判断还无能为力。特别是,目前的人工智能计算模型存在着以下局限:
(1)需要对问题给出形式化描述(即抽象出一个可解析的数学模型,如果抽象不出,即归纳为不可解问题);
(2)需要对形式化描述设计确定的算法(容易产生NPC类问题);
(3)处理的结果无法表示现实世界问题所存在的测不准性和不完备性;
(4)图灵意义下的可计算问题都是可递归的(“可递归的”都是有序的);
(5)用“度量”来区分模式、只能处理可向量化的数据。
传统人工智能的基本理论框架建立在“思维即计算”的理论基点上,以“演绎逻辑和语义描述”和“形式化方法”实现计算。将“思维”抽象为“符号计算”对人工智能的发展产生了重大的推动作用,但为所有的对象建立模型是不可能的,也未必是完备的。这里存在条件问题(QualificationProblem)和分支问题(RamificationProblem),即不可能枚举出一个行为的所有先决条件,也不可能枚举出一个行为的所有分支。而大脑的认知具有多种方式,如对环境的理解、非完整信息的处理、复杂时空关联的任务,还有最基本的形象思维,特别是人脑在非认知因素和认知功能之间的相互作用,它们是形式系统难以,甚至不能描述的。
人类能够为未来做出计划、可以灵活处理问题并且向他人学习,这些是人类智能的基本属性。而传统人工智能方法,无法实现类似人一样思考推理的机器,去深度解决自然场景描述和环境理解等知识推理问题,也难以完成许多对于人类大脑来讲轻而易举的一些任务。因此,人们期望借鉴大脑的工作原理发展出一种新的智能机器的架构或称之为强人工智能的计算理论和方法。
1.2冯诺依曼计算架构的不可替代性与所面临的困境
冯˙诺依曼计算结构示意图,见图2(引自维基百科)
图2冯诺依曼计算结构示意图
前面指出,冯˙诺依曼架构的计算机可以实现任何可用形式化方法描述的计算任务。未来,这种架构的计算机依然会在人类社会中发挥不可替代的作用,并为我们解决更多、更复杂的计算任务提供强大的工具。如四色定理构造性证明,没有冯˙诺依曼计算架构无论如何都是不可能的。发展具有更高计算能力的冯˙诺依曼架构的计算机,并在这种架构下应用形式化理论,实现大数据处理和跨领域的知识学习,依然是计算机科学与人工智能领域重要的科学目标。但我们面临的计算任务并不都是可用形式化方法来描述的。从人类认知信息加工机制的角度看,图灵计算及简单的并行分布处理架构,没有紧密的结合生物学实际,虽然目前的计算机可以高效的执行预定指令、完成精确的数值计算,然而其分离的运算和存储结构、以及有限的并行度(指令级、数据级、线程和任务级)、有限的容错和鲁棒性,特别是功耗问题制约了冯˙诺依曼计算架构的进一步发展。表1给出了基于冯˙诺依曼结构的计算与类脑(受脑启发的)计算的主要区别。
表1冯诺依曼计算结构与类脑(受脑启发的)计算的主要区别
2脑科学研究进展、大脑网络连接和联想记忆
2.1脑科学研究在理论和技术方面的进展
(1)理论准备:研究发现,描述复杂网络的动态演化和调控的大尺度时空因果关系的网络结构曲线图,是一个具有显著聚类特征的幂函数曲线,与许多复杂网络如互联网、社交网、脑神经网络等有高度的相似性[7]。该研究对于构建人工网络来模拟大脑的设想提供了理论支持。
图3不同时空尺度的脑活动观测技术
2.2大脑网络连接与认知的关系
2.2.1大脑的结构连接
大脑皮层的结构连接(连接图谱)是研究大脑工作机理的出发点。不同皮层之间的解剖学连接结构,可以通过磁共振弥散张量成像获得,并使用图理论(如连接矩阵和连线图)进行有效性等分析。
a)大脑结构连接b)功能连接c)有效连接
图4大脑三种连接的示意图
通过对猫科动物和猕猴的大脑皮层解剖发现,大脑的结构网络具有“Smallworld”的特性。大脑连接的形成方式和连接长度受限于生物材料和能量代谢的约束,形成了占大量比重的短距离连接(低成本)以及丰富的中央枢纽结构(适应性)。大脑的结构连接是大脑容错特性的生理基础,短距离的连接网络中部分细胞的消亡并不会影响大脑的功能,然而,中央枢纽单元的破坏,往往会对大脑的功能形成严重的、广泛的、甚至不可修复的损伤[12]。
2.2.2大脑的功能连接
2.2.3大脑的有效连接
有效连接用来描述神经元之间的因果互动和相互影响,它并不是直接通过大脑皮层成像获得,而是通过统计分析的方法获得的。功能网络的重构度可以预测人的认知弹性,但在功能连接重构过程中,有效连接决定了认知弹性的效率和能力[14]。
大脑的功能与其结构存在着对应关系。这种关系有别于基于符号和概率的知识表达,大脑通过复杂的时、空动态演化的网络系统来完成信息的判断和推理。对于这样一种可塑的、动态的非线性关系网络,目前,我们无法使用形式化的方法进行完整描述,更无法简单地利用传统的基于数值的计算模型来实现。
2.3大脑的记忆
记忆是生物神经系统的一个重要功能。对于大脑记忆机制和模型的研究,既可以增进人们对于大脑工作机理的理解,具有重要的科学意义,又能推进类脑(受脑启发的)计算的发展,具有重要的工程应用价值。
大脑首先从感知觉系统的外部或者内部感受器中收集内外部的信息,然后利用神经系统中记忆的知识对收集的信息进行解释和判断。由于信号不可避免的带有噪声,而且通常观察也是不完全的,因此,在神经系统的各个水平上都必须借助记忆完成对接受的信号的修正和完整化。同样的,为了形成适应性的行为决策,神经系统必须能够对环境变化的“历史”形成内部模型,这个作为决策依据的模型也是由记忆提供的。
机械记忆和生物记忆是两类主要的记忆形式,分别以计算机中对于数据的存储和高等动物脑中的记忆为代表,不同于机械记忆,生物记忆有如下几个特点:
另外,在生物神经系统中,记忆与信息的处理过程是缠绕在一起的,不像计算机系统那样,信息存取的过程与计算过程是相对分离的。
因此,神经记忆的特征主要表现在四个方面:分布式表达和存储、输入信息与检索记忆在内容上具有关联性、存储和记忆检索具有动态性、记忆与信息处理过程紧密结合[16]。记忆在生物神经系统中扮演着十分重要的作用,大脑记忆机制的研究,对于类脑(受脑启发的)计算具有重要的指导意义。
3类脑(受脑启发的)计算面临的问题
问题1:我们尚未搞清楚大脑的工作机理
目前,脑科学、神经科学的基础研究并未向我们完整揭示大脑的工作机理,这个领域还存在很多的问题有待进一步研究,比如:认知功能与大脑网络中不同分布区域的动态交互机理?大脑功能网络的形成和解散与大脑结构网络的衔接和分离的内在机制?在复杂的认知行为中,大脑功能网络如何有效的合作、竞争以及协调工作?不同脑组织的功能角色、以及角色间的基本数学原理,包括知识的获取、表示和存储?大量实验证明,在睡眠状态下,大脑的记忆得到了强化,它的内在机理是什么?大脑用来处理外界激励的能量消耗只占很小比例,那些与刺激无关的能量消耗到底做了什么?
问题2:脑科学是一个“大数据”命题
神经系统的表征分布广泛,神经系统的处理过程中大脑活跃区域的变化以及区域间的相互作用,和不同认知状态下交互空间的变化的状态空间是动态的、巨大的。一个科学家或者一次实验根本不足以揭示大脑复杂的网络连接,只有依靠全球的学者共享实验数据,建立一个开放的脑网络连接数据库,通过不断的数据积累,才有可能达到认识脑网络的目的。如美国的学者于上世纪80年代提出和建立的Brainmap开放数据库就是一个很好的例子[17]。尽管有这些尝试,目前的技术还是远未达到对如此海量的数据进行有效记录和解读,使得我们难以从中提取有关脑的工作原理和规律的完整信息。脑科学不仅是一个数据发现的工程,更是一个数据整合、知识发现的“大数据”工程。
问题3:大脑的通讯编码形式?
生物神经网络是一种脉冲神经网络(SpikingNeuralNetwork),神经元接收到的输入脉冲引起细胞体膜电位的升高,当其超过一定阈值时,将会发出一个神经脉冲到轴突,并通过突触与后续的神经元树突进行神经递质的传输,影响其膜电位。锋电位作为神经元之间的传输信号,研究和理解其信息编码的方式(Spikesignalcoding)将有助于我们更好的理解大脑的工作方式以及发展人机交互技术。目前,对于大脑神经脉冲的编码形式,我们依然处于摸索阶段。
问题4:如何构建大尺度的神经形态计算系统?
神经形态工程学的关键问题是如何理解单个神经元的形态、神经元环路以及整体架构,如何创建和获得满足不同任务需求所要的计算能力,如何完成信息的表达形式、如何获得鲁棒性、学习以及发展、适应性的塑性变化以及有利于进化的改变。
问题5:计算能力的匹配
类脑计算需要完成高性能计算到高智能计算的进阶,计算能力的度量由每秒完成的浮点数操作(Floating-pointOperationsPerSecond,FLOPS)变化为每秒完成的突触操作(SynapticOperationsPerSecond,SOPS)。人类大脑约有10^11的神经元,其中每个神经元有约10^4的突触连接,如果以10Hz的速度释放神经脉冲,其计算量约为10^16次突触操作(SOPS),假设每次神经脉冲操作需要10^2次数值计算,则共需要具有10^18次运算能力的高性能计算机(HighPerformanceComputer,HPC)才能匹配整个大脑突触操作的次数。目前最快的高性能计算机天河-2的计算能力为33.86~54.90PFLOPS。而具有10^18浮点计算能力的机器预期在2019-2023年才能出现。
4三种类脑认知计算模型与技术实现途径
虽然我们能够在微观尺度上观测基因和蛋白质结构、在介观尺度上研究细胞和神经网络结构、在宏观尺度上研究脑区结构以及认知行为,但至今我们对于大脑的结构和功能的关系以及认知功能的机理,并未形成一个完整而全面的认识。即使如此,借鉴神经科学的一些发现和认知科学的一些理论,将会极大的地推进人工智能研究领域的极大发展,如:LeCun等学者受神经科学中局部感受野的启发设计了卷积神经网络[18]。Bengio等学者借鉴大脑基底神经节与前额叶的信息处理机制,提出了人工神经网络中的强化学习的方法[19]。Poggio模拟灵长类动物在识别物体时视皮层神经活动过程构建的HMAX模型[20]。2016年,Google的Deepmind公司设计的AlphaGo针对围棋这一特定问题采用受生物神经网络层次化组织结构启发的深度学习方法构建了价值与策略网络模型[2],在围棋比赛中获得了足以抗衡(甚至优于)人脑的优异表现。由此可见,借鉴神经科学的知识来丰富和启发人工智能的研究已成为一个重要的研究方向。
4.1三种类脑(受脑启发的)认知计算模型
目前,国内外学者主要围绕三种类脑认知模型开展研究:
(1)基于生物学的脑认知网络计算模型(图5a),代表性的工作有瑞士联邦理工的马克哈姆教授发起的欧盟HBP项目;
(2)基于数据驱动的脑认知计算模型(图5b),设计各种巧妙的激励测试实验,通过如核磁共振、脑电图等神经成像技术获得有限的实验数据,并对测量数据加以分析归纳;
(3)基于数学和人工神经网络的脑认知计算模型(5c),使用数学分析和计算机模拟的方法对生物实验观察数据和测试结果进行研究,提出大脑信息加工的生物学假设、提炼出相应的数学和计算模型,发展出了相应的计算神经理论和计算方法。
(a)基于生物学的脑认知计算模型
(b)基于数据驱动的脑认知计算模型
(c)基于数学的脑认知计算模型
图5三种类脑认知计算模型
4.2类脑计算的技术实现途径
从计算科学和工程学的观点来看,类脑计算是一门以仿生学为基础的、但又超越仿生学的工程研究,其研究基础离不开仿生学提供的大量神经学分析数据,而其具体实现又依赖于物理可实现的小型化、可控的功能载体。目前来看,实现类脑计算可能的技术途径主要有:
(1)基于亚阈值电路和基于忆阻器的数模混合电路的实现方法;
(2)基于数字电路的设计实现;
(3)基于超级计算机的软件仿真。
混合信号芯片可以做到超低功耗和较高的人工神经元密度,但是基于模拟混合信号的应用开发十分困难,高密度的模拟元器件的性能受制程工艺以及温度、湿度的影响很大,难以进行有效的神经编程(NeuralProgramming)、移植和状态监测等;基于数字电路的设计,易于编程和采用不同的芯片制程设计实现,但缺点是受限于海量的数值运算单元,难以实现高密度的神经元系统;相较于前两种方式,基于超级计算机的方案可以比较方便的构建不同尺度的类脑仿真系统,但缺点是运行速度较慢,设备昂贵且功耗巨大。作者认为,目前已有的类脑计算的研究工作存在着以下几方面的问题:
1.热衷于追求更大规模的神经网络实现,而忽略了神经系统信息处理中最重要也是最基本的单元——神经环路的研究。
2.大多工作集中在神经活动模型和学习计算理论两方面,忽略了神经网络的动力学特性。比如:采用离线学习的TrueNorth芯片,需要通过静态配置的方式将离线训练完成的神经网络参数进行部署,才能实现特定的应用。
5视觉认知的神经形态计算
正如前言中所指出的,类脑计算是受脑功能和脑神经网络连接机制启发的一种计算架构,它以神经形态计算的模式来部分模拟大脑功能与其结构的对应关系和反馈连接,增强人工智能及其计算效率,而不是简单的复制人类的大脑。这就意味着类脑计算研究的发展必须面向具体问题。
5.1视觉计算
作者在从事计算机视觉的研究工作中,始终思考着这样一个问题:怎样利用知识,将大脑的某些视觉感知功能赋予机器,即:
(1)如何实现初级视觉中不同层次和水平的自然衔接,使视觉系统自动将信息组织成具有连续性的结构?
(2)认知的基本单元是什么?是否存在统一的方式处理不同视觉模块灰度、纹理、形状、颜色、表面深度和运动的组织信息?
(3)选择性注意力机制是怎样在大脑的初级视觉信息处理中产生作用的?
(4)如何将这个组织原则映射到物理可实现的高度并行的“类脑”计算结构中?作者在《计算机视觉与模式识别》一书中指出:“计算机视觉系统和模式识别机器,尤其是在信息的高度并行分布式处理方面的进展,将更加依赖于对于人脑功能正确的模拟,而且这可能为下一代计算机及机器智能的研究开辟出一条新的途径”[21]。视觉认知计算可以作为类脑计算的一个突破点,它有助于构建结构紧凑、高能效的智能自主系统,并为智能机器人和大规模非结构化数据知识处理、远程自主系统等新兴学科提供新的计算架构参考,使类脑计算在更广泛的领域得到应用。
人眼所能看到的光谱波长范围从380纳米到780纳米,这段波长称为可见光谱,在可见光范围内,不同波长的光给人以不同的色彩感觉,不同强度的光及不同强度分布的光刺激人眼,在人脑中将产生不同的光强,颜色,形状等视觉信息。
人类具有完善的视觉系统可以在瞬息感知外部世界,视觉系统中不同的神经元,它们分别对由简单到愈来愈复杂的视觉图像(如运动、边缘、形状、颜色和纹理等)产生刺激和反应。神经科学家对视觉信息的并行处理进行了深入的研究。所谓的并行分块处理是指不同视觉性质的信息成分按不同的神经通道进行预处理并输入视皮层,由不同性质的皮层细胞分别进行分析处理。以英国科学家Zeki为代表的神经科学家认为,人类视觉系统使用更加精巧的策略或办法来统一不同性质的信息,即在几个不同水平上相互作用来多级地处理复杂的视觉信息,并在大脑皮层由这些反应得出对外部世界的描述。解决复杂的视觉任务需要多种信息的融合以及利用多种约束条件和知识。
图6给出了人类视觉信息通道的示意图。光线从眼球前方的角膜穿过,经过前房、晶状体、玻璃体、聚焦于视网膜上,被感光细胞接收,使得光信号转换为电信号。具体的,信号经由感受器(视杆和视锥细胞)->双极细胞(第一级神经元)->节细胞(第二级神经元)->视神经->视交叉->视束->外侧膝状体(第三级神经元)->视辐射->内囊枕部->枕叶视区的传导途径到达大脑皮层,形成视觉[22]。视觉信息系统包含不同的通路对视觉信息的不同属性进行传递和处理,多条通路之间还存在交叉连接。不同细胞群的响应表示被感知物的不同特征,多种特征的关系构成整体的感知。
图6人类视觉信息通道示意图
5.2研究计算视觉的基本观点
研究计算视觉,我们必须知晓:视觉不是孤立地起作用,而是复杂的行为系统的一部分;其次,视觉计算是动态的,通常并不需要一次将所有的问题都计算清楚,而是对所需要的信息加以计算;第三,视觉计算应该是自适应的,视觉系统的特性应该随着与外界的交互而变化。同时,初级视觉中的全局和局部感知同样存在着交互行为,小尺度和大尺度感知是并行的、相互作用的。生物视觉具有小范围竞争、大范围协作的特点,该特点与2.2.1小节中提到的大脑结构网络具有“Smallworld”的特性,表现出结构和功能的一致性。下面简单讨论视觉认知的基本性质。
5.2.1视觉交互行为与注意力集中
视觉认知过程不只是被动地对环境的响应,同时也是一种主动行为:人们在环境信息的刺激下,通过眼动、走动,改变观察点,从动态的信息流中抽取不变性,在交互作用下产生知觉(主动视觉系统)。人脑在视觉认知过程中存在自下而上和自上而下的双向信息处理通道。生物视觉通道使用自下而上的传递过程(200ms-300ms)对视觉对象形成初步认知结果(100步法则)。通过自上而下的反向传递控制眼球的注意力,完成预测-验证的认知过程。人具有从复杂环境中搜索特定目标,并对目标信息进行选择处理的能力[23-24]。这种搜索与选择的过程被称为注意力集中(Focusattention)。比如,大脑通过控制眼球的肌肉,完成注意区域的聚焦,在眼动过程中的信息则是被忽略的。人们对于注视点周围的物体可以精确地反应出其颜色、形状、深度信息,而对于处于视野边缘的物体,则很难分辨清楚它的颜色、形状和距离。这就是信息表达的不完整性。选择注意机制可分为独立于内容和语义的初级(Low-level)注意系统和基于内容和语义的高级(High-level)注意系统两个层次。
5.2.2选择性注意与群体编码(绑定问题)
研究表明,单细胞并不能揭示视觉皮层神经编码原理,没有任何一个神经元可以独立地表达知识或联想记忆。而是,由“一群”神经元参与对不同模式的表达,而且其中任一个给定的神经元,在不同时刻发生不同的作用。这种性质大大减少了神经网络的规模,同时也提高了产生新的神经表达的灵活性。这里就产生了群体编码(Populationorassemblycoding)。应用局部并行的方式来实现复杂的全局计算。视知觉组织协调这些局部过程,并与数据导向相结合。动态群体编码表现出一种选择性绑定(Selectivebinding)问题。
5.2.3反馈
反馈在人类视觉信息获取和认知过程中起着极其重要的作用。反馈环节的引入,使得人类具有主动的、有目的的对外界的感知。神经反馈分为下意识和有意识的反馈控制,例如最简单的膝跳反应就是一个下意识的行为。而在众多人群中,排选熟悉的面孔,则是深思熟虑的结果。
5.3视觉认知与深度学习
5.3.1深度学习的进步与问题
借鉴大脑的视觉处理机制,人工神经网络表现出类似人脑的学习、归纳分类的能力。目前深度学习(DeepLearning)方法依赖大规模训练数据,在图像分类、语音识别、人脸识别等领域已接近甚至超过了人的能力。2015年12月举行的ImageNet和MSCOCO计算机视觉挑战赛上,来自微软亚洲研究院孙剑团队采用152层神经网络获得了超过人眼辨识的正确率[25]。但目前深度网络模型与人类大脑相类比,我们无法给出深度网络对应学习或分类任务的功能连接与有效连接的定义和描述,并且存在以下问题:
(1)缺乏理论支持(如:面向不同复杂度的任务需要设计多少隐层?如何消除海量存在的冗余参数?何种网络连接为最优结构?)。因此其很难对效果超群的深度学习算法在具体问题上给出恰当的理论解释。
(2)大规模神经网络容易过拟合数据,只有采集到充分大的标注且数据维度足够高时,有了大数据样本才能缓解复杂模型的过度学习。因此深度学习性能依赖于海量的学习样本以及样本的质量,在小样本数据下无法获得有效的知识(概念)。
5.3.2视觉认知中的深度学习层次结构
在视觉认知计算中,对深度学习层级结构的理解要避免走入一个误区:层级结构最顶层的输出是认知编码的目的。实际上人对视觉刺激的认知编码的结果是整个层级结构,而不只是层级结构最顶层的输出。目前的深度学习和计算机视觉只需要识别出图像中的对象,这种认知是面向对象的。人脑不仅能识别出输入图像中的对象,还能在一定程度上识别出构成这些场景和对象的细节(虽然不是像素级的细节)。也就是说,在大脑层级编码模型中,底层的作用不仅是为了最终得到最顶层,而每一层本身就是对图像的部分编码。
另外,一种观点认为高级视觉认知就是对象认知,这种理解容易对视觉认知机制产生混淆和误导。比如啮齿动物,它们并不需要识别出什么是建筑、什么是草坪、什么是公路,它们的高级视觉认知主要在于复杂环境中的导航,比如快速识别出哪里可以逃跑,哪里存在障碍等[27]。人脑认为草坪和道路作为两个对象,其界线非常明显,而啮齿动物的高级视觉认知可能并不会对视觉场景做这样的划分。因此,构造一个能很好的识别“对象”的算法只是解决“眼前”的问题。但是,对象识别只是人脑适应环境的结果,仍然不是最根本的视觉认知机制。
5.3.3现有视觉计算架构的局限
在信息处理过程中,空域和时域运算执行效率受限于计算和存储相分离的架构,即使采用并行度很高的GPU,并通过精巧的存储设计和编译器的优化支持,依然只能获得有限的能效提升。在当前主流的处理器架构中,虽然采用更高级别的并发多线程技术,可以在一定程度弥补存储单元与计算单元之间的通讯延迟,但依然无法避免参与计算的数据在层次化存储单元中频繁的搬移所带来的能耗问题。
5.4脑启发的视觉处理计算架构
视觉通道特别是视网膜的信息处理能力、大脑神经连接的网络化结构以及联想记忆启发我们设计和研究新型的视觉计算模型和处理架构。这种架构的组成单元有:从帧驱动到事件驱动的信息获取单元(智能计算前移)、注意力选择/事件驱动的信息获取方式、时空动态的信息编码、网络化分布式的动态信息处理、结合长时和短时记忆功能的网络结构,以及条件要素的约束和引导的有效控制。实现大脑结构网络、功能网络和有效网络在视觉处理架构不同层次的映射。
5.4.1概念形成与流形解离
Hebb学习理论[28]认为神经系统中的概念是由一组联合激励的神经元集群共同表达的,这一理论也描述了突触可塑性的基本原理:突触前神经元A向突触后神经元B的重复持续刺激,可以导致突触传递效能的增加。如果用于表达一个特定概念的细胞集群中的某个神经元(簇)并未接收可以让它产生神经脉冲的激励(没有激励,或者激励不足),它依然可以通过属于同一个细胞集群组中其它神经元(簇)的兴奋刺激,促使其达到激活的状态。
人类识别图像通常对图像信息进行编码,通过大脑视觉腹侧通路将编码信息传导至下颞叶皮层。下颞叶皮层神经可以被复杂的图形(人脸)所激活,并对图形的位置、大小、姿势和光照等变化信息具有鲁棒性。因此根据下颞叶皮层的神经反应特性,视觉图像信息形成概念的过程可以看做是将相互缠绕的高维流形(图像)逐渐解离至具有不变特征的相互独立的空间中(图7)[29]。利用这一特性将有助于启发我们寻求新的视觉认知计算模型和架构。
(a)人脸概念在图像空间形成高维流形
(b)人脸概念在好的神经特征空间中的表达
(c)人脸概念在差的神经特征空间中的表达
(d)两个人脸在像素空间中相互缠绕
图7人脸识别的流形解离与概念形成示例
5.4.2时空信息编码方式
图8数据驱动的视觉神经信息编解码
5.4.3从帧驱动到事件驱动的信息获取
5.4.4从事件驱动到注意力驱动的信息获取
借鉴生物视网膜图像采集和处理的功能,将传感器光探测单元与可配置的图像处理电路紧耦合,完成被动(自下而上的由事件驱动的信息获取,如运动导致的光流变化)和主动(自上而下的注意力选择,如基于概念或经验知识的目标定位)的图像采集。视网膜存在两种感光细胞:视杆细胞和视锥细胞。视杆细胞对暗光敏感,在中央凹处无分布;视锥细胞有色觉,光敏感性差,但视敏度高,在中央凹分布密集,而在视网膜周边相对较少。因此视觉注视点(投射到中央凹)处的图像分辨率远高于非注视区域,这是一种非均匀采样。从生物学能量效率的角度讲,注意力将信息处理聚焦在最有意义的视觉目标或特性上,而不必其他目标或者其它特性。引入注意力驱动的传感器不仅能够实现近似人类视觉处理的双向通道,还可以完成注视区域信息的精细化获取。但这一方案可能带来的问题是,前置图像处理组件会导致传感器中每个像素单元的面积增加,降低像素单位密度,从而减低空间采样分辨率。未来可以采用2.5D或者3D电路结构来弥补这一问题。
5.4.5网络化结构的信息处理
5.4.6长/短时记忆相结合的智能存储
学习是人和动物对环境条件所产生的适应性行为。记忆是获得的信息或经验在脑内存储和再现的神经活动过程。瞬时记忆是感觉器官对刺激信息的暂时存储,短时记忆用于信息的保持和精细加工,长时记忆是个体经验积累和认知能力发展的前提。瞬时记忆、短时记忆和长时记忆之间有首因/近因效应,三者之间在一定的条件下可以发生转换。学习和记忆的基本过程是:信息获取、选择、巩固和再现。信息获取是感知器官向大脑输入信号的阶段,注意力在信息的获取阶段影响很大。选择和巩固是信息在脑内进行简单处理、决定是否需要保持和进一步强化形成长时记忆的阶段,其巩固程度和信息对于个体的意义以及是否重复出现有关(增加曝光度会增加熟悉度和确定性,但不清楚是否影响记忆)。再现也即回忆,是将脑中存储的长时记忆信息提取再现于意识,从而利用经验知识信息完成高层次的信息加工处理的过程。
记忆的容量和区分度(容错)也是一个重要的研究内容,对于一个确定规模的神经系统而言,具有良好的区分度的记忆表达和支持更大数目的记忆是一对相互矛盾的目标。由于每个神经元(簇)可以参与不同的细胞集结(概念)的表达,神经拟态计算中一个整体概念的表达广泛的分布在不同位置的神经元(簇),因此,神经系统的记忆容量具有较大的弹性。特别是,当有新的模式需要学习时,如何利用已有的“记忆”完成不同程度的知识迁移,而不是从头开始学习。有关生物记忆的研究还处在不断的研究和发展过程中。在类脑计算(受脑启发的计算)研究过程中,借鉴具有生物学可信度的有关记忆的工作机制,将有助于启发我们寻求新的长/短时记忆相结合的智能存储结构,实现基于分布式联想记忆(知识和经验)的智能信息处理与加工。
5.4.7条件要素的约束和引导(控制单元)
在视觉感知过程中,三维世界在感光器上的二维投影会导致深度等结构信息的损失,因此为了得到合理的视觉认知输出,需要在认知处理过程中增加自然的约束(关于客观世界的假设和知识)。并且,在不同层次和模块间完成信息融合时,需要设计支持约束条件要素的控制单元来减少或利用信息的不确定性。在瞬时、短时和长时记忆相互转化的过程中和长时记忆的再现调度中,也需要设计支持引导的控制单元来完成有关知识和经验的智能存储和再现。
心理学和神经生物学的实验证明,大脑的视觉处理使用了不同的暗示并将它们组合起来完成信息的理解。在面向视觉认知的类脑计算架构中还应当设计包含提供特定暗示的控制模块,并根据视觉环境采用不同的加权或引导来解决复杂的视觉认知问题。神经生理学的大量实验告诉我们,大脑皮层各功能区域之间的关系是极为复杂的,并且,脑功能具有一种“突现”性质。因此,在设计类脑计算的架构时,解决各层次和各处理模块之间的关联控制是一个巨大的挑战。
5.4.8面向大规模神经网络计算的互连架构
2009年开始,作者的研究团队围绕大规模并行分布式计算系统与美国麻省理工学院开展合作研究,实现了一种面向千核处理器的可重构并提供时钟级精度的并行仿真器[34-36]。在此基础上,作者的研究团队进一步研制出具有分布式、高通量、高灵活性以及高鲁棒性的网络式大规模并行处理仿真系统(SimulatorforMulti-coreArchitectureReconfigurableTechnology,SMART),并在FPGA芯片上搭建了相应的开发和验证系统。并针对未来采用深亚微米制程的计算芯片所面临的“暗硅”[37]、细粒度的动态电源门控、异构多核、以及加工、老化引起的故障、性能波动对网络计算结构和性能的影响等问题,设计了避免死锁、保障高连通率以及负载均衡的片上通讯系统和资源管理策略[38-39]。
未来,我们将进一步深入研究面向视觉认知任务处理的新型计算架构(如图9所示),以大脑连接网络、功能网络和有效网络的计算映射为出发点,从小规模的视觉神经网络原型设计开始,通过芯片内互连、芯片间互连的网络结构,以视觉认知任务为导向,从组件到系统探索构建受脑启发的视觉计算系统。
图9受大脑结构网络、功能网络和有效网络启发的类脑计算网络架构
6结束语
类脑计算是一个令人兴奋又感到望而生畏的艰难挑战。类脑计算的基础理论尚在探索和形成中,我们应加强类脑计算的基础理论研究,以形成可“计算”的框架。仅仅研究人的思维活动或记录脑中所有神经元的发放是不可能研制出真正的智能机器。例如,对鸟的详细研究不可能对如何制造飞机提供更多的启示。机器的智能属性只是在功能上和人的大脑等价,如飞机和鸟之间只是在功能上接近一样。从这个意义来说,研究类脑计算并非去完整复制人的大脑,而是对人脑功能特性的模拟。
类脑计算的发展离不开脑科学、神经科学、信息科学等学科的共同进步,我们必须加强来自多学科的实验科学家和理论科学家的合作,类脑计算才有可能走上正确的方向。现代科学的进步往往是在新的思想和已有的成见之间精致平衡中实现的。对当前类脑计算的热潮,我们需要保持冷静思考和踏实工作。期望值过高,又没有达到预期的目标,有可能会给学科发展带来的低潮甚至灾难性的后果,使最初的期望目标成为“皇帝的新衣”。
参考文献
[1]WaldropMM.ThechipsaredownforMoore'slaw[J].Nature,2016,530(7589).
[2]SilverD,HuangA,MaddisonCJ,etal.MasteringthegameofGowithdeepneuralnetworksandtreesearch[J].Nature,2016,529(7587):484-489.
[3]TheHumanBrainProject:AReporttotheEuropeanCommission,2013.
[4]BRAIN2025AScientificVision,2014.
[5]HuangZJ,LuoL.NEUROSCIENCE.Ittakestheworldtounderstandthebrain.[J].Science,2015,350.
[6]Thagard,Paul,CognitiveScience,TheStanfordEncyclopediaofPhilosophy.
[7]KrioukovD,KitsakM,SinkovitsRS,etal.Networkcosmology.[J].ScientificReports,2012,2(20):10272-10284.
[8]LiuX,RamirezS,PangPT,etal.Optogeneticstimulationofahippocampalengramactivatesfearmemoryrecall[J].Nature,2012,484(7394):381-385.
[10]MerollaPA,ArthurJV,Alvarez-IcazaR,etal.Amillionspiking-neuronintegratedcircuitwithascalablecommunicationnetworkandinterface[J].Science,2014,345(6197):668-673.
[11]MarkramH,MullerE,RamaswamyS,etal.ReconstructionandSimulationofNeocorticalMicrocircuitry[J].Cell,2015,163.
[12]WarrenDE,PowerJD,JoelB,etal.Networkmeasurespredictneuropsychologicaloutcomeafterbraininjury[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2014,111(39):14247-14252.
[13]Gilaie-DotanS,SayginAP,LorenziLJ,etal.Ventralaspectofthevisualformpathwayisnotcriticalfortheperceptionofbiologicalmotion[J].ProceedingsoftheNationalAcademyofSciences,2015,112(4):E361-E370.
[14]BraunU,SchferA,WalterH,etal.Dynamicreconfigurationoffrontalbrainnetworksduringexecutivecognitioninhumans[J].ProceedingsoftheNationalAcademyofSciences,2015,112.
[15]ColeMW,ReynoldsJR,PowerJD,etal.Multi-taskconnectivityrevealsflexiblehubsforadaptivetaskcontrol[J].NatureNeuroscience,2013,16(9):1348-1355.
[16]李耀勇.联想记忆模型:Hopfield神经网络与动态神经网络[D].西安交通大学,1998.
[17]PeterT.Fox,JackL.Lancaster.“Mappingcontextandcontent:TheBrainMapmodel”,NatureRevNeurosci,2002,3:319-321.
[18]LecunY,BengioY.Convolutionalnetworksforimages,speech,andtimeseries[J].TheHandbookofBrainTheory&Neural,1997.
[19]YOSHUABENGIO.ACONNECTIONISTAPPROACHTOSPEECHRECOGNITION[J].InternationalJournalofPatternRecognition&ArtificialIntelligence,2011,07(04):647-667.
[20]KochC,PoggioT,.Predictingthevisualworld:silenceisgolden[J].NatureNeuroscience,1999,2(1):9-10.
[21]郑南宁.计算机视觉与模式识别[M].国防工业出版社,1998.
[22]WaldG.HUMANVISIONANDTHESPECTRUM[J].Science,1945,101(2635):653-658.
[23]LiuT,SunJ,ZhengNN,etal.LearningtoDetectaSalientObject[J].PatternAnalysis&MachineIntelligenceIEEETransactionson,2007,33(2):353-367.
[24]SunJ,ZhengNN,ShumHY.Stereomatchingusingbeliefpropagation[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2003,25(7):787-800.
[26]BrendenM.Lake,RuslanSalakhutdinov,JoshuaB,Tnenbaum“Human-levelconceptlearningthroughprobabilisticprograminduction”,4December2015,Science350,1332(2015)
[27]DavidDanielCox.“Doweunderstandhigh-levelvision”,CurrentOpinioninNeurobiology,2014,25:187-193.
[28]HebbDO.Theorganizationofbehavior[J].JournalofAppliedBehaviorAnalysis,1949,25(3):575-577.
[29]DiCarlo,JamesJ.,andDavidD.Cox.“Untanglinginvariantobjectrecognition.”Trendsincognitivesciences11.8(2007):333-341
[30]ThomasNaselaris,KendrickN.Kay,ShinjiNishimoto.“EncodinganddecodinginfMRI”,NeuroImage,2011,56(2):400-410.
[31]KendrickN.Kay,ThomasNaselaris,RyanJ.Prenger,JackL.Gallant.“Identifyingnaturalimagesfromhumanbrainactivity”,Nature,2008,452(7185):352-355.
[32]YoichiMiyawaki,HajimeUchida,OkitoYamashita,Masa-akiSato,YusukeMorito,HirokiC.Tanabe,NorihiroSadato,andYukiyasuKamitani.“VisualImageReconstructionfromHumanBrainActivityusingaCombinationofMultiscaleLocalImageDecoders”,Neuron,2008,60(5):915-929.
[33]Perez-CarrascoJA,ZhaoB,SerranoC,etal.MappingfromFrame-DriventoFrame-FreeEvent-DrivenVisionSystemsbyLow-RateRateCodingandCoincidenceProcessing-ApplicationtoFeedforwardConvNets[J].PatternAnalysis&MachineIntelligenceIEEETransactionson,2013,35(11):2706-2719.
[34]RenP,LisM,ChoMH,etal.HORNET:ACycle-LevelMulticoreSimulator[J].Computer-AidedDesignofIntegratedCircuitsandSystems,IEEETransactionson,2012,31(6):890-903.
[37]EsmaeilzadehH,BlemE,St.AmantR,etal.DarkSiliconandtheEndofMulticoreScaling[J].Micro,2012,39(3):122-134.
[38]PengjuRen,MichelA.KinsyandNanningZheng“Fault-AwareLoad-BalancingRoutingfor2D-MeshandTorusOn-ChipNetworkTopologies”IEEETransactionsonComputers,2016,65(3):873-887.
[39]PengjuRen,XiaoweiRen,SudhanshuSane,MichelA.KinsyandNanningZheng“ADeadlock-FreeandConnectivity-GuaranteedMethodologyforAchievingFault-toleranceinOn-chipNetworks”IEEEtransactionsonComputers,2016,65(2):353-366.
作者简介
郑南宁西安交通大学人工智能与机器人研究所教授、工程院院士、IEEEfellow。研究兴趣有计算机视觉与模式识别、认知计算与机器智能等。
任鹏举西安交通大学人工智能与机器人研究所副教授,主要研究方向为机器学习的新型计算架构和神经形态计算等。
陈霸东西安交通大学人工智能与机器人研究所教授,IEEESeniorMember。研究兴趣有信号处理、信息论、机器学习,及其在认知科学与工程领域的应用。
吴昊西安交通大学人工智能与机器人研究所在读博士。研究方向为视觉认知中的神经编解码、信号处理等。