基于卷积神经网络学习前端滤波器组参数的心音异常检测
作者:AhmedImtiazHumayun1,ShabnamGhaffarzadegan2,ZheFeng2andTaufiqHasan1
1介绍
心血管疾病(CVD)每年造成约1770万人死亡,占全球死亡率的31%[1]。心脏听诊是最流行的非侵入性和成本效益的早期诊断各种心脏疾病的程序。然而,有效的心脏听诊需要训练有素的医生,这一资源在世界低收入国家尤其有限[2]。因此,基于机器学习的自动心音分类系统在护理点位置使用可连接智能手机的数字听诊器实施,对心脏疾病的早期诊断具有重大影响,特别是对于缺乏熟练医生和地理分布不均的国家。
2数据集
APhysioNet/CinC挑战数据集
2016年PhysioNet/CinC挑战数据集[15]是来自七个不同研究组的PCG记录的累积,包括一个开放训练集和一个隐藏测试集。数据集包含六个子集(a-f),对应于贡献组。训练数据包括从764名患者中收集的3153个心音记录,共84425个心动周期,范围从35到159bpm。数据集是类不平衡的,有2488个正常心音记录和665个异常心音记录。
B交叉验证数据集准备
考虑到数据集的不平衡性和记录的数量较少,我们对数据集进行了划分,分为4次交叉验证,验证集平衡(正常和异常记录的数量相等)。PhysioNet已经提供了301个记录的验证集(Fold0)。其余的三个折叠是通过随机抽样创建的,没有替换。
图1:在准备的4倍交叉验证数据集中的PCG记录
3提出方法
A基线实施
我们的基线系统遵循了Physionet/CinC2016挑战赛的顶级得分方案[13]中提出的CNN系统。首先,我们对信号进行预处理,将其分解为四个频段(2545、4580、80200、200500Hz)。接下来,使用PCG分割[16]提取心动周期,并将零填充为2.5s长。每个心动周期的四个不同波段被输入到1D-CNN的四个不同输入分支。每个分支有两个内核大小为5的卷积层,然后是一个整流线性单元(ReLU)激活和一个最大池2。第一卷积层有8个滤波器,而第二卷积层有4个。四个支路的输出经过展平和串联后被送入MLP网络。MLP网络有一个由20个ReLU激活的神经元组成的隐层和一个sigmoid激活的神经元作为输出。采用二元交叉熵作为损失函数的Adam优化方法。由此产生的模型提供了对每个心动周期的预测,这些预测是整个记录的平均值,并四舍五入用于推断。
B可学习滤波器组:tConv层
对于滤波器系数为b0,b1,...bN,输出样本y[n]通过输入信号x[n]的最近样本的加权和获得。这可以表示为:
其中b0,b1,…bn是核权重。考虑到因果系统,卷积层的输出变为:
图2:tConv层作为FIR滤波器组的操作
图3:提出了CNN模型结构,包括一个可学习的前端滤波器组(tConv层)
在tConv网络的实施过程中,对基线模型进行了进一步的修改,包括:添加He等人[19]提出的初始化方案,在最大池之前退出激活,以及在每个卷积层之后添加批处理规范化。如表1所示,使用Parzen估计树[20],重新调整超参数以获得最佳性能。
CtConv层的变量
2)零相位tConv:零相位(ZP)滤波器是线性相位FIR滤波器的特例,其相位响应为零。将正反向卷积合并到tConv层[21],我们提出了一种零相位tConv层,其操作如图4所示。如果x[n]是输入信号,h[n]是核的脉冲响应,x(ejω)和Y(ejω)是x[n]和h[n]的傅里叶变换:
注意,时域中的翻转操作等效于频域中的复共轭。因此,ZP-tConv的效应只是频域中的平方幅度的乘积。
图4:零相位tConv(ZP-tConv)层中的正反向滤波
4结果与讨论
A实验评价
在我们的4倍交叉验证数据集(第2-B),在训练过程中对损失函数进行加权,以强调异常记录,因为它们仅占数据的21%。作为性能指标,计算灵敏度、特异性和Macc(灵敏度和特异性的平均值)并平均4倍。提出的tConv模型也在FIR滤波器参数固定的情况下进行了评估。3-A(tConv非学习)。结果总结见表二。
结果表明,采用LP-tConv方法和FIR初始化,最佳系统的平均交叉折叠Macc为87.10(±6.79)%。这表示比基线CNN系统绝对改善了9.54%[13]。与表二所示的基线相比,所提议的tConv系统的其他变体也提供了优越的性能。
BtConv层的内核初始化
正如3-C.1中所讨论的,使内核对称可以减少相位失真,这有一个额外的好处,即在tConv层中需要一半的可学习参数。与ZP-tConv相比,学习对称模式改进了Macc度量(表2)。我们还试验了零,随机和FIR初始化(初始化FIR系数为3-A)方案。可视化学习系数及其频率响应(图5),我们观察到,与低频系数相比,高频系数受训练的影响较小。
图5:在图的面板中,每一行代表CNN模型的输入分支(1-4)。对于每个输入分支,列表示:(a)初始FIR系数,(b)tConv中的学习FIR系数,(c)LPtConv中的学习FIR系数(d)通过LP-tConv的学习滤波器的幅度(蓝色)和相位响应(绿色)
C数据集的可变性及结果分析
图6:在Physionet心音数据集的不同训练子集上验证LP-tConv每心动周期的准确性
图7:使用不同传感器采集的正常心音记录的长期谱平均值(LTSA)
5结论
在这项研究中,我们提出了新的tConv层与CNN作为学习滤波器组正常异常心音分类。对tConv层的不同初始化策略进行了研究,同时增加了限制条件,以确保得到的FIR滤波器具有零和线性相位响应。实验结果表明,在使用physinet心音挑战数据集准备的交叉验证任务中,与最先进的解决方案相比,该体系结构的性能指标有了显著的提高。
参考文献
[1]W.H.O.factsheet317,Cardiovasculardiseases(CVDs),May2017.
[2]U.Alam,O.Asghar,S.Q.Khan,S.Hayat,andR.A.Malik,“Cardiacauscultation:anessentialclinicalskillindecline,”Br.J.Cardiology,vol.17,no.1,p.8,2010.
[3]H.Uguz,“Abiomedicalsystembasedonartificialneuralnetworkandprincipalcomponentanalysisfordiagnosisoftheheartvalvediseases,”J.Med.Syst.,vol.36,no.1,pp.61–72,2012.
[4]A.Gharehbaghi,P.Ask,M.Lindén,andA.Babic,“Anovelmodelforscreeningaorticstenosisusingphonocardiogram,”inProc.NBCBME.Springer,2015,pp.48–51.
[5]R.SaracOgLu,“Hiddenmarkovmodel-basedclassificationofheartvalvediseasewithpcafordimensionreduction,”Eng.Appl.Artif.Intell.,vol.25,no.7,pp.1523–1528,2012.
[6]M.N.HomsiandP.Warrick,“Ensemblemethodswithoutliersforphonocardiogramclassification,”Physiol.Meas.,vol.38,no.8,p.1631,2017.
[7]I.J.D.Bobillo,“Atensorapproachtoheartsoundclassification,”inProc.IEEECinC,2016,pp.629–632.
[8]V.MaknickasandA.Maknickas,“Recognitionofnormal–abnormalphonocardiographicsignalsusingdeepconvolutionalneuralnetworksandmel-frequencyspectralcoefficients,”Physiol.Meas.,vol.38,no.8,p.1671,2017.
[9]F.Plesinger,I.Viscor,J.Halamek,J.Jurco,andP.Jurak,“Heartsoundsanalysisusingprobabilityassessment,”Physiol.Meas.,vol.38,no.8,p.1685,2017.
[10]B.M.Whitaker,P.B.Suresha,C.Liu,G.D.Clifford,andD.V.Anderson,“Combiningsparsecodingandtime-domainfeaturesforheartsoundclassification,”Physiol.Meas.,vol.38,no.8,p.1701,2017.
[11]E.KayandA.Agarwal,“Dropconnectedneuralnetworkstrainedontime-frequencyandinter-beatfeaturesforclassifyingheartsounds,”Physiol.Meas.,vol.38,no.8,p.1645,2017.
[12]M.Zabihi,A.B.Rad,S.Kiranyaz,M.Gabbouj,andA.K.Katsaggelos,“Heartsoundanomalyandqualitydetectionusingensembleofneuralnetworkswithoutsegmentation,”inProc.IEEECinC,2016,pp.613–616.
[13]C.Potes,S.Parvaneh,A.Rahman,andB.Conroy,“Ensembleoffeature-basedanddeeplearning-basedclassifiersfordetectionofabnormalheartsounds,”inProc.IEEECinC,2016,pp.621–624.
[14]T.-c.I.YangandH.Hsieh,“Classificationofacousticphysiologicalsignalsbasedondeeplearningneuralnetworkswithaugmentedfeatures,”inProc.IEEECinC,2016,pp.569–572.
[15]C.Liu,D.Springer,Q.Li,B.Moody,R.A.Juan,F.J.Chorro,F.Castells,J.M.Roig,I.Silva,A.E.Johnsonetal.,“Anopenaccessdatabasefortheevaluationofheartsoundalgorithms,”Physiol.Meas.,vol.37,no.12,p.2181,2016.
[16]D.B.Springer,L.Tarassenko,andG.D.Clifford,“LogisticregressionHSMM-basedheartsoundsegmentation,”IEEETrans.onBiomed.Eng.,vol.63,no.4,pp.822–832,2016.
[17]R.MateiandG.Liviu,“Aclassofcircularly-symmetricCNNspatiallinearfilters,”vol.19,pp.299–316,012006.
[18]T.N.Sainath,R.J.Weiss,A.Senior,K.W.Wilson,andO.Vinyals,“Learningthespeechfront-endwithrawwaveformCLDNNs,”inProc.ISCAInterspeech,2015.
[19]K.He,X.Zhang,S.Ren,andJ.Sun,“Deepresiduallearningforimagerecognition,”inProc.IEEECVPR,2016,pp.770–778.
[20]J.S.Bergstra,R.Bardenet,Y.Bengio,andB.Kégl,“Algorithmsforhyper-parameteroptimization,”inAdv.NeuralInf.Process.Syst.,2011,pp.2546–2554.
[21]B.E.Shi,“EstimatingtheCNNsteadystateusingforward-backwardrecursions,”inProc.IEEECNNA,2006,pp.1–6.
[22]D.Byrne,H.Dillon,K.Tran,S.Arlinger,K.Wilbraham,R.Cox,B.Hagerman,R.Hetu,J.Kei,C.Luietal.,“Aninternationalcomparisonoflong-termaveragespeechspectra,”TheJ.Acoust.Soc.Am.,vol.96,no.4,pp.2108–2120,1994.