本文来自《自动化学报》,作者李颖等
本文的结构如下,第1节介绍了小样本图像分类的流程,小样本图像分类数据集和实验评价指标;第2节将现有小样本图像分类算法按照数据结构类型分为卷积神经网络模型和图神经网络模型两大类并进行详细介绍;第3节通过实验数据对比分析了各种算法的性能;第4节总结了小样本图像分类面临的技术挑战并讨论了未来研究趋势;第5节总结全文.
小样本图像分类流程如图1所示,包括准备数据集、构建用于图像特征提取的网络和设计分类器三个步骤.以下对建立小样本图像分类流程的三个步骤进行具体介绍.
图1小样本图像分类流程
1.1.1数据集处理
本文将处理小样本图像数据集的方式分为两种.一是进行数据增强,将数据集进行量级扩增和模式扩增,量级扩增是指针对数据量级的扩大,模式扩增是指在量级扩增的同时,让不同的样本包含更多的语义特性.训练模型时,如果每类包含大量的样本,且这些样本包含大量的模式,则在缓解过拟合问题的同时,模型会具有更好的鲁棒性和泛化能力.除了图像样本数目的扩增,图像特征的增强也是一种数据增强的方式[31];二是不对小样本数据集进行处理,在只有少量样本的情况下,让模型适应数据,针对数据的特点进行建模[32].对于小样本数据集,设计用于提取表示能力强的特征的网络架构往往非常重要.
图2生成对抗网络+孪生网络[36]
1.1.2特征提取
这个过程主要是为适应数据分布建立特征提取模型,该模型能够提取图像的有效特征,图像特征的有效性可解释为,对于一个模型,提取到的图像特征可以对图像进行有效表示,达到更好的分类效果.为了提高图像特征的有效性,注意力机制[31]、记忆力机制[34]等技术被应用于小样本图像分类算法中.
1)注意力机制
注意力机制在数学形式上可以理解为加权求和,通常情况下使用Softmax形式,并通过引入新的参数来弥补模型的拟合能力.文献[40]在对图像特征提取的过程中使用了单一注意力机制,文献[41]认为单一的注意力机制对图像信息的提取不够充分,提出利用多注意力机制将类别标签信息与视觉信息联系起来,减小视觉信息与语义信息之间的鸿沟.
2)记忆力机制
1.1.3分类器
分类器的设计取决于图像特征的有效性和分类器与图像特征之间的适应性.分类器与图像特征之间的适应性可解释为,在假定图像特征具有有效性的前提下,分类器能够最大程度地区分不同类别的图像特征.通常小样本图像分类中所使用的分类器,大多数是在卷积神经网络的最后一层构建带有Softmax的全连接层,或者对提取的图像特征应用K近邻(K-nearestneighbor,KNN)算法,还有对分类器的权重进行重新生成,使模型同时适用于基类数据集和新类数据集,目前现有的元学习方法一般不研究将基类和新类一起进行分类的问题.
一般地,当模型学习到新的类别后,会忘记之前学习过的类别,与之前所做工作不同的是,Gidaris等[50]提出了基于注意力机制的分类器权重生成器,通过重新设计分类器来适应分类器权重和图像特征之间的匹配程度,使模型同时适用分类基类和新类样本.类似于上述工作,Chen等[51]将线性分类器替换为基于距离的分类器,以比较两种分类器在不同数据集上的优劣.
1.2.1小样本公用数据集介绍
近年来,现有文献中的小样本公用数据集主要包括:Omniglot[52]、CIFAR-100[53]、Mini-ImageNet[9]、Tiered-ImageNet[54]和CUB-200[27].从数据量级的大小来看,数据集Tiered-ImageNet,不仅数据量级较大、类别多,而且每类包含的样本也多;量级较小的数据集,例如Mini-ImageNet数据集、CIFAR-100数据集、CUB-200数据集,这类数据集类别较少、类内样本数相对较多;Omniglot数据集类别较多,但是相对类内样本少.从数据类型的复杂度来看,Omniglot数据集属于字符类型的图像,包含的类型和模式较为简单,对其进行实验往往分类精度较高;其他数据集都属于自然图像,包含的图像模式较为复杂,对其进行实验分类精度往往相对较低.
表1小样本公用数据集的数量信息
Table1Quantitativeinformationofsmallsamplepublicdatasets
|显示表格
图3小样本公用数据集样本示例
Fig.3Sampleexamplesofsmallsamplepublicdatasets
1.2.2评价指标
小样本图像分类算法的实验评价指标通常称为N-wayK-shot[9].也有使用top-1和top-5来评价图像分类精度[55].N-wayK-shot:选取N类图像样本,每类图像选取K个样本或样本对,一般地,N∈{5,10,15,20},K∈{1,5}N∈{5,10,15,20},K∈{1,5}.模型训练阶段,构建好训练模型并在选取的N×K个样本或样本对上进行训练;在验证阶段和测试阶段,选取N类样本中的K个样本或者样本对,执行N-wayK-shot分类任务.根据预测结果来确定预测类别,预测类别与实际类别相符的准确率即为评价指标.Top-1:指预测排名第一的类别与实际结果相符的准确率.Top-5:指预测排名前五的类别包含实际结果的准确率.
图4迁移学习
Fig.4Transferlearning
2.1.1基于特征的迁移学习
Hariharan等[61]利用基类样本间的模式对新类样本进行相同变换,达到增加训练样本数量的目的.具体来讲,从类A中抽取两个样本,这两个样本间存在某种变换模式,再从类B中取出一个样本,对这个样本实施和类A中两个样本间同样的变换模式以生成新的样本.该方法使用ImageNet1k数据集,将其分为基类数据集和新类数据集,基类中含有大量训练样本,新类含有少量训练样本.训练模型分为两个阶段,一是表征学习阶段,对数据增强后的基类数据进行特征提取,并构建分类器;二是小样本学习阶段,利用基类数据和新类数据共同训练模型,以获取基类数据和新类数据的共同特征,并将表征学习阶段提取的特征用于对基类和新类进行分类.为了使分类器同时适应基类数据和新类数据,如式(1)所示,提出一个新的损失函数,用来减小模型
Loss=minW,LD(,W)+λLSGMD(,W)Loss=minW,LD(,W)+λLDSGM(,W)
2.1.2基于关系的迁移学习
将知识压缩进一个单一的模型已经被Buciluaana等证明是可行的[63],进一步地,2014年Hinton等首次提出了知识蒸馏的概念[64],通过引入相对复杂的教师网络,来诱导精简、低复杂度的学生网络的训练,将知识从教师网络中迁移到压缩的学生网络中[65],实现知识迁移.学生网络可以通过对教师网络进行修剪[66-68]或者压缩[69-72]得到,也可以重新设计一个新的网络架构.知识蒸馏的目的就是在减少网络架构的同时把网络的知识保留下来,为了达到这一目的,提出了一个新的温度参数Tem,将输出的概率(硬目标)进行软化,如式(2)所示,
q=exp(ziTem)∑iexp(xiTem)q=exp(ziTem)∑iexp(xiTem)
2.1.3基于共享参数的迁移学习
Oquab等[76]采用微调策略.该算法中,对图像进行多块分解实现数据增强,加强了模型以局部视角识别图像的能力.Oquab等认为卷积神经网络提取的中层特征能够对图像进行很好的表示,利用在ImageNet数据集上预训练的模型[8],对图像中层特征进行提取,并重新构建分类层,构建新的网络对数据集分类.
Qi等[77]提出将迁移学习和增量学习进行结合,通过对分类器的权重进行处理来实现增量零训练.该算法利用卷积神经网络作为特征提取器以共享参数,对新样本进行特征提取后,产生一个分类权重向量,将其扩展进预训练的分类器权重中,以适应对新样本的分类任务.
元学习又叫做学会学习,是机器学习领域一个重要的研究方向,它解决的是学会如何学习的问题.传统的机器学习研究模式是:获取特定任务的数据集,每次再利用这些数据集从头开始训练模型.然而,人类可以通过获取以往的经验,对同类型的任务或有共性的任务进行快速学习,这是因为人类懂得如何学习.如图5所示,如果把特征提取视为机器在数据集上学习的过程,那么元学习器就是要评估这个学习过程,也就是让机器学习学习的过程,即通过学习获得学习经验,利用这些经验再去对最终的目标任务进行评估.一种常见的元学习方式是将学习算法编码进卷积神经网络中,包括基于距离度量的元学习和基于模型的元学习.基于距离度量的元学习将图像映射到一个度量空间并使用某种度量方式计算不同图像样本的差异,度量方式包括固定距离度量[40](欧氏距离、余弦距离或点乘)和非固定距离度量[62](例如使用Sigmoid计算距离得分);基于模型的元学习通过构建元模型来获得经验知识[78],再利用这些经验去评估最终的分类任务.另一种元学习方式是基于优化的元学习,基于优化的元学习目的是使网络具有一个好的初始化[79].
图5元学习
Fig.5Metalearning
2.2.1基于度量的元学习
y^=∑i=1ka(x^,xi)yiy^=∑i=1ka(x^,xi)yi
2.2.2基于模型的元学习
2019年有研究学者将增量学习与元学习进行结合,提出的注意力吸引网络[87](Attentionattractornetworks,AAN)模型不仅在新类上表现良好,而且不会遗忘在基类上学习到的知识.如图6,训练阶段A,在基类上进行预训练模型,学习分类参数WaWa,阶段B结合注意力机制并利用每次学习一个新任务的分类参数WbWb,阶段C将WaWa和WbWb作为基类和新类的分类参数WbWb用来对元任务进行测试.对于给定的新任务都会学习一个参数WbWb,代表该任务在执行分类时的贡献,使得分类器更加灵活适用,而且对单个新样本的分类也更加容易.
图6注意力吸引网络结构[87]
Fig.6Attentionattractornetworksstructure[87]
2.2.3基于优化的元学习
针对小样本数据集的微调策略,采用的是将模型在大数据集上进行预训练,然后在小数据集上进行简单微调.然而经过预训练的模型并不能保证对于微调有一个很好的初始化参数.基于优化的元学习能够保证网络学习到一个好的初始化,使模型对新任务更易于微调.
Finn等[79]在2017年提出了一种与模型无关(Model-agnosticmeta-learning,MAML)的元学习算法.该算法提出的模型无关性元学习算法,使用少量的梯度迭代步骤就可以学习到适用于新任务的参数,能够匹配任何使用梯度下降法训练的模型.简单地讲,如果在模型中加入新的任务,每个不同的任务会产生不同的损失,利用模型在该任务上的损失进行参数优化,使其快速适用于新的分类任务.然而MAML对神经网络结构非常敏感,导致训练过程不稳定,Antoniou等[88]提出对MAML进行优化,进一步提高了系统的泛化性能,加快了网络的收敛速度,减少了计算开销.Nichol等[89]提出的基于优化的元学习模型Reptile,也是通过学习网络参数的初始化,与MAML不同的是,Reptile在参数优化时不要求使用微分.Ravi等[90]提出的基于梯度的优化算法,使用基于LSTM的元学习模型去学习一个网络的初始化,它能够捕捉到单个任务的短期知识和所有任务的长期知识,以便更好地提取特征用于解释图像.
为了降低机器对大量标注样本的依赖,以及在强化学习中减少机器与环境交互的次数,对偶学习作为一种新的学习范式应运而生.现实生活中,很多有实用价值的人工智能任务往往是成对出现的,例如,在图像领域,图像识别和图像生成都有重要的应用,属于对偶任务.如果根据对偶任务来训练模型,利用任务到任务的反馈信息,就能克服模型对数据的依赖问题[91].
图7编码—解码机制[31]
Fig.7Coding-decodingmechanism[31]
深度学习基于大数据通过多层网络实现对抽象概念的理解,显然,数据量越多其效果越好,假如没有那么多的大数据该如何进行抽象概念的理解.对人类来说,即便没有知识的积累,没有相应的专业知识,我们也能够照猫画虎,这有点类似贝叶斯学习的方式[95].贝叶斯学习是利用参数的先验分布,由小样本信息得到的后验分布,直接求出总体分布.贝叶斯学习理论使用概率去表示所有形式的不确定性,通过概率规则来实现学习和推理过程.更具体的来说,贝叶斯学习并不去求解最优的参数值θ,θ,而是假设参数θθ本身符合某个分布,即先验概率P(θ),P(θ),随后利用训练样本得到条件概率分布P(X|θ),P(X|θ),根据贝叶斯公式我们便能求得样本的总体分布,如式(4),
P(θ|X)=P(θ)P(X|θ)P(X)P(θ|X)=P(θ)P(X|θ)P(X)
现实生活中的大量问题都可以被抽象成图模型[98],图G=(V,E)G=(V,E)作为一种数据结构,由节点VV和边EE的集合组成,能够表达复杂的数据关系.传统的机器学习方法很难处理图神经网络信息,充分挖掘图中蕴含的知识是一项非常具有挑战的任务.在深度学习时代,将图与深度学习进行融合成为了一项重要的工作.本节所述的图神经网络(Graphneuralnetwork,GNN)模型是将CNN用于图神经网络上,并对欧几里得小样本图像数据进行分类.
图神经网络在2005年首次被Gori等[99]和Scarselli等[100]提出,用传统的方法处理图结构数据是将其转换为一组平面向量,然而以这种方式处理数据,重要的拓扑信息可能丢失,GNN扩展了递归神经网络,使有向图、无向图、循环图等得以被处理,作为一种可训练的网络其中固定节点可被分别调整.Bruna等[101]和Henaff等[102]提出学习图拉普拉斯的光滑谱乘子,是将CNN泛化到非欧氏空间的一种尝试,但是其计算代价非常高.Defferrard等[103]和Kipf等[104]通过学习图拉普拉斯的多项式解决了计算代价的问题.Li等[105]和Sukhbaatar等[106]进一步放宽模型的限制,对网络层内的权重解耦,同时提出门控机制进行非线性更新.
图8图卷积神经网络[107]
Fig.8Graphconvolutionneuralnetwork[107]
A(k)i,j=φθ(x(k)i,x(k)j)A~i,j(k)=φθ~(xi(k),xj(k))
φθ(x(k)i,x(k)j)=MLPθ(abs(x(k)ix(k)j))φθ~(xi(k),xj(k))=MLPθ~(abs(xi(k)xj(k)))
文献[107]利用图节点的标签信息,隐式地对类内的相似性和类间的不相似性进行建模,与之相反,Kim等[108]在2019年提出的基于边标签的图卷积神经网络(Edge-labelinggraphneuralnetwork,EGNN),将数据集分为多个元任务,包括支持集和查询集,通过直接探索类内的相似性和类间的不相似性来迭代地更新边标签信息,通过预测边标签对样本进行显式聚类.Liu等[109]提出了一种转导式的传播网络(Transductivepropagationnetwork,TPN),该算法利用元学习框架和流型假设,通过对特征嵌入参数和图神经网络构建的参数进行联合学习,将标签从标注样本传递到未标注样本,提高了模型的泛化能力.
上文描述的现有基于小样本学习的图像分类算法被归纳为卷积神经网络模型和图神经网络模型两大类,具体如图9所示.
图9小样本图像分类算法概况
Fig.9Overviewofsmallsampleimageclassificationalgorithms
1)三种基于元学习的小样本图像分类算法各有优势,此外训练模型时学习的类别越多,类内样本越少,分类效果越不好.
Omniglot数据集是字符图像,背景单一,内容简单.从表2中可以看出,基于元学习的小样本算法在Omniglot数据集上的N-wayK-shot分类结果非常好.然而,学习类别越多,样本越少,分类效果越不好,因此20way-1shot的实验结果相对其他N-wayK-shot分类结果较低.
表2基于元学习的Omniglot实验结果
Table2ExperimentalresultsofOmniglotbasedonmetalearning
小样本图像分类算法中,基于度量的元学习算法在Mini-ImageNet数据集上学习到好的度量空间可提高分类效果.如表3所示,基于度量的元学习算法中,MMN使用了记忆力机制,加强了图像特征的表示能力,可以学习到一个好的度量空间.
表3基于元学习的Mini-ImageNet实验结果
Table3ExperimentalresultsofMini-ImageNetbasedonmetalearning
小样本图像分类算法中,基于模型的元学习算法通过学习丰富的图像语义特征帮助在Mini-ImageNet数据集上分类.其中,DML利用深度残差网络作为概念生成器,可以构建表达能力更大的网络结构,产生更好的语义特征.
小样本图像分类算法中,基于优化的元学习算法具有快速学习的能力.其与基于模型的元学习算法相比分类结果较差,通过学习网络参数的初始化,模型微调于新类时会更加适应,该类算法能够快速对新样本进行训练,其分类效果依赖于优化策略以及对新样本的适应.
如表4所示,GCN、TPN以及EGNN在Omniglot数据集上都取得了很好的分类精度,在更为复杂的图像数据集Mini-ImageNet上,EGNN的分类效果好于GCN和TPN.
表4基于图卷积网络的Mini-ImageNet、Omniglot实验结果
Table4ExperimentalresultsofMini-ImageNetandOmniglotbasedongraphconvolutionalnetwork
3)当小样本图像分类算法提取到丰富的高层语义特征或者在特征提取和分类器之间设计好的映射函数时,能产生较好的分类效果.
表5所示,分别从各类中挑选出的性能最好的算法进行比较,在Mini-ImageNet数据集上各算法的5way-1shot分类精度接近于60.0%,5way-5shot的分类精度均高于70.0%,其中SFA和EGNN达到了76.0%,这四种算法分别是迁移学习算法PPA、元学习算法DML、对偶学习算法SFA、基于图卷积神经网络的算法EGNN,其中PPA算法通过激活函数来预测分类器中的分类参数,相当于在高层语义特征和分类器之间做一个映射,使分类器对于不同语义特征的选择更加精确;DML算法利用深度残差网络提取到图像的高级语义特征;SFA算法通过编码—解码机制,对编码机映射到语义空间中的实例特征扰动,再利用解码机产生丰富的图像特征.EGNN算法对类内样本关系和类间样本关系进行建模,能够对图像信息进行强有力的表示.可以看出,通过对图像的高层语义特征的利用,提高了小样本图像分类的精度.
表5迁移学习、元学习、对偶学习和图神经网络模型实验结果
Table5Experimentalresultsoftransferlearning,metalearning,duallearningandgraphneuralnetworkmodel
为进一步分析现有小样本图像分类算法的表现,本节实验在西安邮电大学图像与信息处理研究所依托与公安部门合作的平台所自建的轮胎花纹图像数据集[110]上进行.
轮胎花纹分类的研究源于交通肇事及公安案件处理中轮胎花纹匹配的实际需求.该数据集是目前公开用于学术研究的最大的轮胎花纹数据集,包含轮胎表面花纹数据和轮胎压痕花纹数据各80类,每类30张不同亮度不同尺度和不同旋转角度的图片,如图10所示.实验测试分别在表面花纹图像数据、压痕花纹图像数据、及两种图像混合数据上进行(因为实际需求往往需要进行表面花纹和压痕花纹的比对).实验中46类用于训练,10类用于验证,13类用于测试,轮胎混合花纹数据集包含同样的类别,不同的是每类160张图像.
图10轮胎花纹数据集样本示例
Fig.10Sampleexamplesoftirepatternsdatasets
为研究基于元学习的小样本学习算法、通过编码—解码进行语义特征增强的小样本学习算法和基于图神经网络的小样本学习算法对轮胎花纹图像分类的效果,分别对以下5个算法进行了实验:基于优化的小样本元学习算法[79],基于模型的小样本元学习算法[78],基于度量的小样本元学习算法[30],基于编码—解码结构的小样本对偶学习算法[31],基于图神经网络的小样本学习算法[107].表6为实验测试结果,通过五组实验对比可以看出:
表6在轮胎花纹数据集上的测试结果对比
Table6Testresultscomparisonofvariousalgorithmsontirepatternsdataset
1)通过编码—解码结构进行的语义特征增强能够提高分类精度.
相比其他算法,基于图神经网络的小样本学习算法在轮胎花纹表面数据集和压痕数据集上的分类精度差异最小,而且在混合花纹数据集上的分类精度最高.这说明基于图神经网络的小样本学习算法适用于轮胎花纹数据集的分类研究.下一步工作中,我们将对比更多算法,并进行更进一步的研究.
针对第3.1节和第3.2节的实验分析结果,本节进一步分析了各类算法之间的特点,并分别对卷积神经网络模型和图神经网络模型进行讨论.
1)对卷积神经网络模型的讨论.
如表7所示,卷积神经网络模型中的迁移学习、元学习、对偶学习都可以使用数据增强的方式来解决小样本图像分类问题,当增强的样本具有较大的数量和丰富的语义内容时,小样本数据集的分类结果会有所提升.
表7小样本图像分类算法的对比
Table7Comparisonofsmallsampleimageclassificationalgorithms
对偶学习目前在小样本图像分类中的主要应用是数据增强,不同于之前的图像变换方法,对偶学习中可以利用自编码机在图像的视觉特征空间和语义特征空间之间相互变换,它可以和现有的图像特征提取模型进行结合,利用自编码机寻找好的数据增强方式.
目前小样本图像分类中应用最多的是迁移学习和元学习,两种方法都可以借助预训练模型来进一步学习,或者借助迁移学习思想和元学习策略对小样本数据进行训练,迁移学习更多侧重于得到表示性更强的迁移特征,元学习在度量方式、模型设计以及初始化策略上都有考量.同时,对传统机器学习分类器的使用也使得模型的解耦性增强,更好地进行网络架构的设计,其中基于欧氏距离、余弦距离和点乘方式度量在基于度量的元学习中使用较多.
2)对图神经网络模型的讨论.
目前,小样本图像分类算法在模式较为简单的字符型数据集Omniglot上已取得很好的分类结果,但是对于相对复杂的数据集,虽然分类结果不断提升,但是仍然不理想.利用数据增强、正则化、对特征提取过程建模等方式,可以有效地缓解小样本带来的过拟合问题,也能够增强图像特征的表示能力,但仍然需要在克服过拟合问题和增强图像的表示能力之间进行权衡.除此之外,小样本图像分类仍然面临一些挑战,本节将对此进行介绍,同时从技术角度对小样本图像分类未来的研究趋势进行展望.
1)权衡过拟合问题和图像特征表示能力
小样本图像分类模型往往需要克服过拟合问题,同时又要从少量的样本中学习到能够表示图像的有效特征.迁移学习中对小样本数据集进行特征提取[61],元学习中从元任务中获取元信息[29]等都需要对图像特征进行提取,为了缓解过拟合问题,通常使用的网络结构较为简单,不足以对图像中蕴含的信息进行有效表达,而Resnet网络[87]和其他残差网络[32]能够加深网络的层数,记忆模块能够对历史信息进行存取和使用[34,62,78,90],从而增强了图像特征的表示能力.因此,如何权衡过拟合问题和图像特征表示能力是小样本图像分类需要面临的挑战.
2)不同应用领域的小样本图像分类
从上述的实验分析中可以看出,多数小样本图像分类算法,在模式简单、背景单一的字符型数据集Omniglot上具有非常好的分类效果[30,79,89],在模式较为复杂的其他类型的数据集,同一个小样本图像分类算法在不同的小样本数据集上的分类结果具有一定的差异[31-32].针对不同应用领域图像数据内容的不同特点,如何设计合适的小样本图像分类算法,或者具有一定普适性适应不同数据集的算法,这也是小样本图像分类目前的难点.
1)应用注意力机制
小样本学习的训练样本量较少,提取到的信息相对有限,可以利用注意力机制在有限的训练样本下,提取到对图像具有表示性更强的特征,并且使得该特征能够显著影响分类效果.小样本学习从本质上讲是想让机器学会人类的学习方式以及泛化能力,人类能够在图像识别任务中很好地利用注意力机制,此外,注意力机制能够提高神经网络的可解释性[111],软注意力机制和硬注意力机制[112]、自注意力机制[113]、互注意力机制[114]等注意力模型,其直观性、通用性以及可解释性能够对小样本图像分类任务提供重要帮助.
2)将CNN中图像特征的标量表示替换为向量表示
CNN利用卷积核能够检测出相应的图像特征,但如果样本不够丰富,一些重要信息就会检测不到,比如位置等信息,因此,CNN需要更多的样本来增强它的性能,提高图像特征的表示性.胶囊网络通过向量来对图像特征进行表示,向量中可以包含任意个值,每个值代表当前需要识别的物体的一个特征,而传统的卷积操作是通过线性加权求和的结果,得到的是标量.胶囊网络利用动态路由算法进行信息传递,它需要较少的训练数据,而且能够保留图像特征的位置和姿态信息,对旋转、平移以及其他仿射变换也有很强的鲁棒性[115].
本文针对当前基于小样本学习的图像分类算法进行了归类总结,依据对不同数据类型的建模方式,将小样本图像分类算法分为卷积神经网络模型和图神经网络模型两大类,其中,卷积神经网络模型又分为迁移学习、元学习、贝叶斯学习和对偶学习四种学习范式,并针对数据集处理、特征提取和分类器设计三个环节,对两类算法进行了详细介绍.迁移学习更多侧重于得到表示性更强的迁移特征;元学习在度量方式、模型设计以及初始化策略上都有考量;贝叶斯方法目前难以单独应用于小样本图像分类;对偶学习应用于小样本图像分类的是编码—解码结构,可进行数据增强;图神经网络可侧重于对图像间关系进行建模.最后针对目前小样本图像分类算法的不足,分析了小样本图像分类面临的挑战,同时从技术角度探索了小样本图像分类的未来研究趋势.