图4.关键脑信号与深度学习模型的发表比例示意图。
6.1.脑信号采集
首先,睡眠EEG的分类主要依赖于判别模型和混合模型。在关于睡眠阶段分类的19项研究中,有6项独立采用了CNN和修改过的CNN模型,而2篇论文采用了RNN模型。有三种基于CNN和RNN组合的混合模型。
其次,就MIEEG的研究(30篇发表)而言,独立的CNN和基于CNN的混合模型得到了广泛应用。至于代表性模型,DBN-RBM通常用于从MIEEG信号中捕获潜在特征。
6.2.深度学习模型的选择标准
我们的调查显示,判别模型在总结的发表中最为常见。从高层次来看,这是合理的,因为大部分脑信号问题可以被视为分类问题。另一个观察是,CNN及其变体在超过70%的判别模型中被采用,我们提供了以下原因。
首先,CNN的设计足够强大,能够从EEG信号中提取潜在的判别特征和空间依赖关系,以用于分类。因此,一些研究采用了CNN结构进行分类,而另一些研究则采用了它进行特征提取。
第二,CNN在一些研究领域(例如计算机视觉)取得了巨大成功,这使得它变得极为著名和可行(公开代码)。因此,脑信号研究人员有更多机会理解并将CNN应用于他们的工作。
对于代表性模型,DBN,特别是DBN-RBM,是用于特征提取的最受欢迎的模型。DBN之所以广泛用于脑信号研究,有两个原因:(1)它有效地学习了揭示相邻层变量关系的生成参数;(2)它使得在每个隐藏层中计算潜在变量的值变得简单明了。然而,大多数采用DBN-RBM模型的工作是在2016年之前发表的。可以推断,在2016年之前,研究人员更倾向于使用DBN进行特征学习,然后使用非深度学习分类器;但最近,越来越多的研究愿意采用CNN或混合模型进行特征学习和分类。
此外,生成模型很少独立使用。基于GAN和VAE的数据增强和图像重建主要集中在fMRI和EEG信号上。已经证明,经过数据增强后,训练过的分类器将获得更具竞争力的性能。因此,这是未来有前景的研究方向。
6.3.应用性能
为了更近距离地观察基于深度学习的脑信号分析的最新进展,我们从应用性能的角度分析了脑信号采集方法和深度学习算法。在某些情况下,不同的研究采用相同的深度架构处理相同的数据集,但得到了不同的性能,这可能是由于不同的预处理方法和超参数设置造成的。
脑信号控制的智能环境只出现在少数几篇论文中。其中,脑信号是通过非常不同的方法收集的。这是一个新兴但有前景的领域,因为它很容易与智能家居和智能医院集成,以便于健康或残疾的个人。脑信号的另一个优点是通过通信技术连接人们的内外世界。在这个领域,许多研究都集中在VEP信号上,因为VEP很明显且容易被检测到。一个重要的数据源来自第三届BCI竞赛。此外,由于脑信号是不可见的且很难被模仿,因此可以广泛应用于安全系统中。高假冒防御特性使脑信号成为保密场景中身份识别/验证的新星。基于脑信号的安全系统的缺点是设备昂贵且不方便(例如,受试者必须佩戴EEG耳机以监测脑波)。
驾驶疲劳检测可以轻松集成到自动驾驶车辆等平台中。然而,由于实验成本昂贵和缺乏可访问的数据集,这个领域只有少数几篇论文。此外,还有许多有趣的应用(例如,有罪知识测试和性别检测)已经通过深度学习模型进行了探索。
7.开放问题
尽管深度学习提高了脑信号系统的性能,但仍存在技术和可用性挑战。技术挑战涉及复杂场景中的分类能力,而可用性挑战涉及大规模实际应用中的限制。在本节中,我们将介绍这些挑战并指出可能的解决方案。
7.1.可解释的通用框架
到目前为止,我们已经介绍了几种类型的脑信号(例如,自发EEG、ERP、fMRI)以及应用于每种类型的深度学习模型。基于深度学习的脑信号研究的一个有前景的研究方向是开发一个通用框架,该框架可以处理各种脑信号,而不考虑用于信号收集的通道数量、样本维度(例如,1-D或2D样本)和刺激类型(例如,视觉或音频刺激)等。通用框架需要两个关键能力:注意力机制和捕获潜在特征的能力。前者保证框架可以专注于输入信号的最有价值的部分,后者使框架能够捕获独特且信息丰富的特征。
7.2.受试者独立分类
到目前为止,大多数脑信号分类任务都集中在依赖于受试者的场景中,其中训练样本和测试样本都来自同一个受试者。未来的方向是实现受试者独立的分类,以便测试数据永远不会出现在训练集中。高性能的受试者独立分类对于脑信号在现实世界中的广泛应用是必不可少的。
实现这个目标的一种可能的解决方案是通过迁移学习构建个性化模型。个性化的情感模型可以采用转导参数传递方法来构建个体分类器,并学习一个回归函数,该函数映射数据分布和分类器参数之间的关系。另一个可能的解决方案是从输入数据中挖掘受试者独立组件。输入数据可以分解为两部分:一个依赖于受试者的组件和一个对所有受试者都通用的受试者独立组件。混合多任务模型可以同时处理两个任务,一个专注于受试者识别,另一个专注于类别识别。一个训练良好且收敛的模型应该能够在类别识别任务中提取受试者独立的特征。
7.3.半监督和无监督分类
深度学习的性能高度依赖于训练数据的大小,然而,为了收集广泛场景(如睡眠EEG)的丰富类标签,需要耗费昂贵且耗时的手动标记。虽然监督学习需要训练的观察和标签,无监督学习不需要标签,而半监督学习只需要部分标签。因此,它们更适合于具有少量基础真相的问题。
张等人提出了一个对抗变分嵌入框架,该框架结合了VAE++模型(作为高质量的生成模型)和半监督GAN(作为后验分布学习者),以实现强大且有效的半监督学习。贾等人提出了一个半监督框架,通过利用未标记数据的数据分布来促进标记数据的表示学习。
有两种方法可能增强无监督学习:一种是利用众包来标记未标记的观察结果;另一种是利用无监督领域适应学习来通过线性变换对齐源脑信号的分布和目标信号的分布。
7.4.在线实现
大多数现有的脑信号系统侧重于离线程序,这意味着训练和测试数据集是预先收集并离线评估的。然而,在现实世界的场景中,脑信号系统应该接收实时数据流并实时产生分类结果,这仍然非常具有挑战性。
对于EEG信号,在线系统中,与离线程序相比,收集到的实时信号由于许多因素(例如受试者的较低集中度和设备的固有不稳定性(例如波动的采样率))而变得更加嘈杂和不稳定。通过我们的实证实验,在线脑信号系统的准确率通常比它们的离线对应项低10%。在线实现的一个未来方向是开发一批强健的算法,以处理影响因素并发现嘈杂的实时脑信号中的潜在独特模式。Aliakbaryhosseinabadi等人实现了一个基于EEG的在线系统,该系统实现了可比较的性能,但是,这项工作只研究了一个非常高级的目标(即人类注意力)。通过EEG信号的协方差矩阵发现潜在的不变表示可以帮助减轻灭绝扰动的影响。一些后处理方法(例如投票和聚合)可以通过对多个连续样本的结果进行平均来帮助提高解码性能。然而,这些方法将不可避免地带来更高的延迟。因此,后处理需要在高准确度和低延迟之间进行权衡。
7.5.硬件的便携性
硬件的便携性不佳一直阻止了脑信号在现实世界中的广泛应用。在大多数情况下,用户希望使用小巧、舒适甚至可穿戴的脑信号硬件来收集脑信号,并控制家用电器和辅助机器人。
8.结论
在本文中,我们彻底总结了非侵入性脑信号分析的深度学习模型的最新进展。与传统的机器学习方法相比,深度学习不仅能够自动从脑信号中学习高级特征,而且对领域知识的依赖性较小。我们组织了脑信号和主要的深度学习模型,然后讨论了脑信号的最新深度学习技术。此外,我们提供了指南,以帮助研究人员为每类脑信号找到合适的深度学习算法。最后,我们概述了基于深度学习的脑信号应用,并指出了未解决的挑战和未来的方向。
附录A:非侵入性脑信号
在这里,我们提供了图2中显示的脑信号的详细介绍。非侵入性脑成像技术可以通过电气、磁或代谢方法收集,主要包括EEG、fNIRS、fMRI和MEG。
A.1.脑电图(EEG)
图5.头皮上的EEG电极位置(10-20系统)及收集到的EEG信号。电极的名称由它们的位置标记:Fp(前额),F(额),T(颞),P(顶),O(枕)和C(中央)。
EEG记录设备可以安装在类似帽子的头戴设备上。EEG头戴设备可以安装在用户的头上以收集信号。与用于测量脑信号的其他设备相比,EEG头戴设备便携且更适用于大多数应用。
表7.EEG模式及其对应的特征。意识程度表示对外部世界的意识程度。这里提到的意识程度主要是在生理学而非心理学中定义的。
作为最常用的信号,EEG信号有大量的子类。在本节中,我们对EEG子类信号进行了有条理的介绍。如图2所示,我们将EEG信号分为自发EEG和EPs。根据外部刺激的频率,可以将EPs分为EVP和稳态EPs。每种电位都包含基于外部刺激类型的视觉、听觉和体感电位。图2中的虚线四边形,如Intracortical、SEP、SSAEP、SSSEP和快速串行听觉呈现(RSAP),不包括在此调查中,因为很少有现有的研究使用深度学习算法处理它们。我们列出这些信号以实现系统的完整性。
A.1.1.自发性脑电图(SpontaneousEEG)
通常,当我们谈论“脑电图”(EEG)这个术语时,我们指的是自发性脑电图,它在没有外部刺激的特定状态下测量脑信号。具体来说,自发性脑电图包括个体在睡眠、进行心理任务(例如计数)、患有脑疾病、进行运动想象任务、处于某种情感状态等时的脑电信号。
根据收集场景,自发性脑电图包含几个从属类别:睡眠、运动想象、情感、精神疾病和其他。
A.1.2.诱发电位(EP)
根据刺激方法,EP存在两个类别:ERP和SSEP。ERP记录对单独离散刺激事件(或事件变化)的EEG信号反应。为了实现这种隔离,在ERP实验中,刺激通常彼此相隔很长的刺激间隔,以便估计刺激独立的基线参考。ERP的刺激频率通常低于2Hz。相比之下,SSEP是对固定速率的周期刺激产生的反应。
在广泛的研究和临床应用中,有三种EP:VEPs;AEPs;和体感诱发电位(SEPs)。VEP信号主要位于枕叶,信号幅度最高的地方是在距状沟。
(2)听觉诱发电位(AEPs)。AEPs是ERP的一个特定子类,其中记录了对听觉(声音)刺激的反应。AEP主要从头皮上记录,但起源于脑干或皮质。最常测量的AEP是听觉脑干反应,通常用于测试新生儿和婴儿的听力。在脑信号领域,AEP主要用于临床测试,因为它在检测单侧损失方面具有准确性和可靠性。与RSVP类似,RSAP指的是快速串行呈现声音刺激的实验。受试者的任务是在干扰项中识别目标音频。
(3)体感诱发电位(SEPs)。通常,SEPs缩写为SSEP或SEP。在本文中,我们选择SEP作为缩写,以防与SSEPs冲突。SEP是ERP的另一个常用子类,由外周神经的电刺激引发。SEP信号包括一系列幅度偏移,几乎可以由任何感觉刺激引发。
图6.P300波和视觉P300拼写系统。
A.2.功能近红外光谱学(fNIRS)
fNIRS是一种使用近红外(NIR)光的非侵入性功能神经影像技术。具体来说,fNIRS利用NIR光来测量氧合血红蛋白(Hb)和脱氧血红蛋白(deoxy-Hb)的聚集程度,因为Hb和deoxy-Hb比头部其他组件(如颅骨和头皮)具有更高的光吸收率。fNIRS依赖于血氧水平依赖性(BOLD)反应或血流动力学反应来形成功能神经影像。BOLD反应可以检测大脑血液中的氧合或脱氧血液水平。相对水平反映了血流和神经活动,其中增加的血流意味着由活跃神经元引起的更高的代谢需求。例如,当用户专注于精神任务时,前额叶皮质神经元将被激活,前额叶皮质区域的BOLD反应将更强。
A.3.功能磁共振成像(fMRI)
A.4.磁脑电图(MEG)
附录B.脑信号分析中的基础深度学习
其中x和x′表示两个变量,而w,w′,b,和b′表示相应的权重和偏置。
B.1.判别式深度学习模型
由于脑信号分析的主要任务是脑信号识别,判别式深度学习模型因此成为最受欢迎和最强大的算法。假设我们有一个脑信号样本的数据集{X,Y},其中X表示脑信号观测值的集合,Y表示样本真值(即标签)的集合。假设有一个特定的样本-标签对{x∈RN,y∈RM},其中N和M分别表示观测值的维度和样本类别的数量。判别式深度学习模型的目标是学习一个具有映射:x→y的函数。简而言之,判别模型接收输入数据并输出相应的类别或标签。本节介绍的所有判别模型都是监督学习技术,它们需要观测值和真值的信息。
B.1.1.多层感知机(MLP)
最基本的神经网络是全连接神经网络(图7(a)),它只包含一个隐藏层。输入层接收脑信号的原始数据或提取的特征,而输出层显示分类结果。术语“全连接”表示特定层中的每个节点都与前一层和后一层中的所有节点相连。这种网络太“浅”,通常不被视为“深度”神经网络。
MLP是最简单也是最基本的深度学习模型。MLP与全连接神经网络的主要区别在于MLP具有多于一个的隐藏层。所有节点都与相邻层的节点完全连接,但与同一层的其他节点没有连接。MLP包括多个隐藏层。如图7(b)所示,我们以一个具有两个隐藏层的结构为例来描述MLP中的数据流。
输入层接收观测值x并向前馈送到第一个隐藏层,
有几个术语可能容易相互混淆:人工神经网络(ANN)、深度神经网络(DNN)和多层感知机(MLP)。这些术语之间没有严格的区别,通常在文献中混用,并常作为同义词使用。通常,ANN和DNN可用于描述整体的深度学习模型,包括不仅仅是全连接网络,还有其他网络(例如,循环网络、卷积网络),但MLP只能指全连接网络。此外,ANN包括所有神经网络模型,可以是浅层的(一个隐藏层)或深层的(多个隐藏层),而DNN不包括浅层神经网络。
B.1.2.循环神经网络(RNNs)
长短时记忆(LSTM)
其中i、f、o和m分别代表输入门、遗忘门、输出门和输入调制门。
GRU包含两个门:重置门(r)和更新门(z)。前者决定了如何将输入与先前的记忆结合在一起。后者决定保留多少先前的记忆,这与LSTM的遗忘门类似。数据流如下:
我们在这里简要比较了LSTM和GRU,因为它们非常相似。首先,根据文献研究,LSTM和GRU具有可比较的性能。对于任何特定任务,建议尝试它们两者,以确定哪个提供了更好的性能。其次,由于GRU只有两个门且没有隐藏状态,因此它较为轻量级。因此,GRU训练速度更快,对于泛化需要的数据更少。第三,相比之下,如果训练数据集足够大,LSTM通常会表现得更好。原因是LSTM比GRU具有更好的非线性,因为LSTM有两个额外的控制门(输入调制门和遗忘门)。结果,与GRU相比,LSTM更有能力从大规模训练数据集中发现潜在的不同信息。
B.1.3.卷积神经网络(CNNs)
我们展示了图8(b)中显示的标准CNN架构。CNN包含一个输入层,两个卷积层,每个卷积层后面都跟着一个池化层,一个全连接层和一个输出层。每层中的方块显示了特定批次输入值的处理进度。CNN的关键是将输入数据减少到更容易识别的形式,同时尽可能减少信息损失。CNN有三个堆叠层:卷积层、池化层和全连接层。
卷积层是CNN的核心块,包含一组过滤器,用于对输入数据进行卷积,然后进行非线性变换以提取地理特征。在深度学习实现中,卷积层中应设置几个关键超参数,例如过滤器的数量、每个过滤器的大小等。池化层通常在卷积层之后。池化层旨在逐渐减小特征的空间大小。这样,它可以帮助减少参数(例如权重和基础)和计算负担。池化操作有三种:最大值、最小值和平均值。以最大池化为例。池化操作输出池化区域的最大值作为结果。池化层中的超参数包括池化操作、池化区域的大小、步幅等。在全连接层中,与基本神经网络一样,节点与前一层中的所有激活全面连接。
CNN是脑信号研究中最受欢迎的深度学习模型,可用于挖掘输入脑信号(如fMRI图像、自发EEG等)之间的潜在空间依赖关系。更多详细信息将在第4节中报告。
B.2.代表性深度学习模型
代表性深度学习一词指的是使用DNN进行表示学习。它旨在学习输入数据的表征,使得更容易执行下游任务(例如分类、生成和聚类)。
代表性深度学习模型的基本模块是自编码器(AEs)和受限玻尔兹曼机(RBMs)。深度信念网络(DBNs)由AE(自编码器)或RBM(受限玻尔兹曼机)组成。包括AE、RBM和DBN在内的代表模型是无监督学习方法。因此,它们可以仅从输入观测值x中学习代表性特征,而无需基准真值y。简而言之,代表模型接收输入数据并输出数据的密集表征。在不同的研究中,有几种模型(如DBN、DeepRBM和DeepAE)的各种定义,在本调查中,我们选择了最容易理解的定义,并将在本节中详细介绍它们。
B.2.1.自编码器(AE)
如图10(a)所示,AE是一个神经网络,具有三个层:输入层、隐藏层和输出层。它与标准神经网络不同,因为AE是训练来重构其输入的,这迫使隐藏层尝试学习输入的良好表征。
与方程(6)相比,此方程不涉及变量y,因为它将输入x视为基准真值。这就是为什么AE能够执行无监督学习。
自然地,AE的一个变体是深度自编码器(D-AE),它具有多于一个隐藏层。我们在图10(c)中展示了具有三个隐藏层的D-AE的结构。从图中,我们可以观察到在编码器和解码器中都有一个额外的隐藏层。对称结构确保了编码和解码过程的顺畅。因此,D-AE通常具有奇数个隐藏层(例如2n+1),其中前n层属于编码器,第(n+1)层作为代码,属于编码器和解码器,最后n层属于解码器。D-AE的数据流(图10(c))可以表示为:
它几乎与AE相同,只是D-AE有更多的隐藏层。除了D-AE,AE还有许多其他变体,如去噪AE、稀疏AE、收缩AE等。在这里,我们只介绍D-AE,因为它很容易与基于AE的DBN混淆。它们之间的关键区别将在B.2.3节中提供。
B.2.2.受限玻尔兹曼机(RBM)
RBM是一种随机人工神经网络,可以学习其输入集上的概率分布。它包含两层,包括一个可见层(输入层)和一个隐藏层,如图10(b)所示。从图中,我们可以看到两层之间的连接线是双向的。RBM是Boltzmann机的一个变体,具有更强的限制,即没有层内连接。在通常的Boltzmann机中,同一隐藏层中的节点会连接。与AE类似,RBM的过程也包括两个步骤。第一步将输入数据从原始空间压缩到潜在空间的隐藏层。之后,以相同的方式使用隐藏层重构输入数据。与AE相比,RBM有一个更强的约束,即编码器权重和解码器权重应该相等。我们有:
我们可以从图10(d)中观察到,深度RBM(D-RBM)是具有多个隐藏层的RBM。可见层的输入数据首先流向第一个隐藏层,然后是第二个隐藏层。然后,代码将向后流入可见层以进行重构。
B.2.3.深度信念网络(DBN)
DBN是由简单网络(如AEs或RBMs)堆叠而成的。因此,我们将DBN分为由AE组成的DBN-AE(也称为堆叠AE)和由RBM组成的DBN-RBM(也称为堆叠RBM)。
如图11(a)所示,DBN-AE包含两个AE结构,而第一个AE的隐藏层作为第二个AE的输入层。这个图有两个阶段。在第一阶段,输入数据按照B.2.1节介绍的规则输入到第一个AE中。计算重构误差并反向传播以调整相应的权重和基础。这个迭代继续,直到AE收敛。我们得到了映射,
方程(30)然后,在第二个AE收敛后,我们有
AE的核心思想是学习具有较低维度但包含输入数据大部分信息的代表性代码。DBN-AE背后的想法是学习更具代表性和更纯净的代码。
类似地,DBN-RBM由几个单独的RBM结构组成。图11(b)显示了一个包含两个RBM的DBN,其中第一个RBM的隐藏层用作第二个RBM的可见层。
比较DBN-RBM(图11(b))和D-RBM(图10(d))。它们几乎具有相同的架构。此外,DBN-AE(图11(a))和D-AE(图10(c))具有相似的架构。DBN和深度AE/RBM之间最重要的区别是,前者是贪婪训练的,而后者是联合训练的。具体来说,对于DBN,首先训练第一个AE/RBM,收敛后,训练第二个AE/RBM[44]。对于深度AE/RBM,联合训练意味着整个结构一起训练,无论它有多少层。
B.3.生成深度学习模型
图12.生成深度学习模型的示意图。
(a)VAE包含两个隐藏层。第一个隐藏层由两个组件组成:期望和标准偏差,它们分别从输入层学习。第二个隐藏层表示编码的信息。ε表示标准正态分布。
(b)GAN主要包含两个关键组件:生成器和判别器网络。前者接收一个潜在的随机变量以生成一个假的脑信号,而后者接收真实和生成的脑信号,并尝试确定它是生成的还是不是。在脑信号的领域中,GAN重构或增强数据,而不是分类。
生成深度学习模型主要用于生成训练样本或数据增强。换句话说,生成深度学习模型在脑信号领域起到支持作用,以提高训练数据的质量和数量。在数据增强之后,将采用判别模型进行分类。此过程旨在提高训练深度学习网络的鲁棒性和有效性,特别是当训练数据有限时。简而言之,生成模型接收输入数据并输出一批相似的数据。在本节中,我们将介绍两种典型的生成深度学习模型:VAE和GANs。
B.3.1.变分自编码器(VAE)
VAE在2013年提出,是AE的重要变体,也是最强大的生成算法之一。标准AE及其其他变体可用于表示,但由于学到的代码(或表示)可能不是连续的,因此无法用于生成。因此,我们无法生成与输入样本相似的随机样本。换句话说,标准AE不允许插值。因此,我们可以复制输入样本,但无法生成相似的样本。VAE与其他AE不同的一个基本独特属性是,其潜在空间被设计为连续的,从而允许轻松的随机采样和插值。这种属性使VAE对生成建模非常有用。接下来,我们将介绍VAE的工作原理。
重构误差为
VAE的总误差由DL散度和重构误差组合而成,
B.3.2.生成对抗网络(GAN)GANs
于2014年提出,并在广泛的研究领域(例如计算机视觉和自然语言处理)取得了巨大成功。GAN由两个同时训练的神经网络组成,包括一个生成器和一个判别器。生成器捕获输入数据的分布,而判别器用于估计样本来自训练数据的概率。生成器的目标是生成假样本,而判别器的目标是区分样本是真实的还是假的。生成器和判别器的功能是相反的;这就是为什么GAN被称为“对抗性”的。在生成器和判别器都收敛后,判别器应该无法识别生成的样本。因此,预训练的生成器可以用于创建一批样本,并将它们用于进一步的操作,如分类。
图12(b)显示了标准GAN的过程。生成器接收一个噪声信号s,该信号是从多模态高斯分布中随机采样的,并输出假的脑信号xF。分发器接收真实的脑信号xR和生成的假样本xF,然后预测接收到的样本是真实的还是假的。生成器和判别器的内部架构取决于数据类型和场景。例如,我们可以在fMRI图像上通过卷积层构建GAN,因为CNN具有提取空间特征的出色能力。判别器和生成器是联合训练的。在收敛后,可以通过生成器创建大量的脑信号xG。因此,训练集从xR扩大到{xR,xG},以训练更有效和更稳健的分类器。
B.4.混合模型
混合深度学习模型指的是由至少两个基本深度学习模型组成的模型,其中基本模型是判别式、表征式或生成式深度学习模型。根据它们的目标,混合模型分为两个子类:以分类为目标的(CA)混合模型和非分类目标的(NCA)混合模型。
少数NCA混合模型旨在重构脑信号。例如,St-yves等人采用了GAN来根据fMRI图像重构视觉刺激。
原文:Asurveyondeeplearning-basednon-invasivebrainsignals:recentadvancesandnewfrontiers