放射组学中的机器学习和深度学习

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.10.06重庆

1引言

2癌症放射组学的研究和临床应用概述

在本节中,我们将回顾放射组学在肿瘤检测、特征化以及预测结果方面的应用。除非另有说明,所有描述的研究均为回顾性和单一机构的。

2.1放射组学在诊断中的应用

2.1.1癌症检测和自动轮廓描绘

结合放射组学特征提取与机器学习的放射组学方法,可以用于检测/诊断癌症或自动描绘肿瘤病变。放射组学驱动的自动前列腺肿瘤检测方法通常使用一种在多模态图像中计算的特征集上进行训练的监督方法。为了检测前列腺癌,特征是在前列腺的多模态MRI中的3×3像素滑动窗口中计算的。使用支持向量机(SVM)分类器将体素标记为癌变或非癌变。在Algohary等人的研究中,前列腺被分割成训练组中恶性和正常区域之间的侵袭性区域。使用带有条件随机场空间调节的体素逐个随机森林模型(RF)来分类多模态MRI(T1、对比增强(CE)T1、T2和FLAIR)中的体素,这些MRI是多形性胶质瘤(GBM)患者的大脑,分为五个类别:非肿瘤区域和四个肿瘤亚区域,包括坏死、水肿、非增强区域和增强区域。卷积神经网络也已经应用于头颈癌放疗中的风险器官分割,以及与传统方法相比,应用于肺癌和肝癌的分割。

2.1.2组织病理学和肿瘤分期的预测

放射组学有潜力彻底改变传统的肿瘤特征描述,并取代基于宏观变量的经典方法,可以用来区分恶性和良性病变。使用连通组件标记和自适应模糊区域生长算法自动检测的乳腺癌病变,使用放射组学特征在数字乳腺摄影、动态增强MRI和超声上被分类为良性肿块或恶性肿瘤。基于平均表观扩散系数(ADC)的放射组学模型在前瞻性MRI解释期间,其准确性优于放射科医生对前列腺病变作为临床显著癌症(Gleason分级组≥2)的特征描述。深度学习多参数MRI迁移学习方法也显示出将前列腺癌分类为高级/低级或分级的能力。基于CT图像的放射组学模型已被用于预测肺癌的组织病理学(腺癌或鳞状细胞癌)和PET肿瘤分期,以及肺腺癌中的微乳头状模式(微乳头状是描述肿瘤细胞在组织学上的生长模式的一个术语,这种模式可能与疾病的严重性和预后有关)。

2.1.3微环境和肿瘤内部划分

2.1.4肿瘤基因型

在肺癌患者中,放射组学特征与基因表达模式之间发现了显著的关联。放射基因组学研究展示了放射组学表型与乳腺癌基因组特征之间的关联,如线粒体DNA(miRNA)表达、蛋白质表达、基因体细胞突变和转录活动。特别是,肿瘤大小和增强纹理与转录途径的活动和miRNA表达有关。通过多重逻辑回归和成对选择,实施了放射组学模型从CT中识别上皮生长因子受体(EGFR)突变状态,并解码肺腺癌中的ALK(间变性淋巴瘤激酶)、ROS1(c-ros癌基因1)或RET(转录重排)融合。

尽管放射组学和基因组学之间存在大量的关联证据,但很少有临床前研究证明了肿瘤基因型与放射组学之间的因果关系。在一项研究中,HCT116结肠癌细胞被培养为NMRI-nu小鼠腹部的异种移植瘤。然后通过给予HCT116四环素(dox)或安慰剂来诱导GADD34基因的过表达。放射组学分析表明,基因过表达导致放射组学特征的变化,因为许多特征在dox处理组和安慰剂组之间存在显著差异。

2.1.5临床和宏观变量

2.2放射组学在治疗中的应用

2.2.1局部控制、反应和复发

放射组学预测了对非小细胞肺癌(NSCLC)和局部晚期直肠癌进行新辅助化放疗的反应,该反应在手术时进行评估。使用PET和CT签名描述了接受肺癌立体定向放疗的患者的局部控制,该签名是通过使用PET和CT的特征使用监督主成分分析开发的。使用一阶统计、GLCM和3TMRI中的T2-w和ADC的几何测量通过RF(随机森林)方法开发了一个放射组学模型,用于放疗后前列腺癌的生化复发。从使用T1-w、T2-w和DWI序列的增强3TMRI中提取了126个放射组学特征,以预测鼻咽癌(NPC)对化放疗的治疗反应。深度学习方法与放射组学也被提议用于预测肝脏和肺癌放疗后的结果。

2.2.2远程转移放射组学

模型预测了接受肺癌立体定向放射治疗(SBRT)的NSCLC患者的远程转移(DM)的发展,这些特征来自CT或PET-CT。Vallières等人使用基于纹理的模型对软组织肉瘤的肺转移风险进行早期评估,这些肉瘤来自前处理的FDG-PET和MRI扫描,包括T1-w和T2-w抑制脂肪序列(T2FS)。开发了一个放射组学签名,用于预测局部晚期腺癌后的DM(远程转移)。对肿瘤周围空间的分析可以提供有关远程复发风险的宝贵信息,因为更侵袭性的肿瘤可能在肿瘤周边有不同的形态模式。一个SVM分类器被训练来从肿瘤周围空间的放射组学分析预测远程复发。

2.2.3生存率

Aerts等人在回顾性肺癌队列中构建了一个由四个特征组成的放射组学签名,该签名预测了头颈部和NSCLC独立队列的生存率。使用LASSO程序识别了一个来自GLCM的纹理特征,SumMean,作为整体生存的独立预测因子,该特征在决策树中补充了代谢性肿瘤体积(MTV)。一个放射组学签名是从PET-CT构建的,用于肺癌的SBRT后的生存率。深度学习也被提议使用标准治疗CT来根据死亡风险对NSCLC患者进行分层。

2.2.4靶向分子治疗

许多肿瘤通常过度表达如EGFR这样的癌基因,并对如EGFR酪氨酸激酶抑制剂这样的分子靶向治疗产生反应。从治疗前和治疗后3周的CT采集之间的特征变化中,可以识别出对吉非替尼治疗产生反应的NSCLC患者。设计了一个放射组学预测模型,用于根据抗血管生成治疗后的GBM的无进展生存和总体生存对患者进行分层。

2.2.5免疫治疗

2.2.6Delta-放射组学

特征的纵向研究及其在治疗过程中的变化,目的是预测对治疗的反应,被称为delta-放射组学。从治疗前和每周治疗期间的CT计算的特征在放射治疗(RT)期间对NSCLC发生了显著变化。Delta放射组学可能通过锥形束CT(CBCT)设备进行,用于放射治疗的图像引导,从而允许对肿瘤对总剂量、分割和分割剂量的反应进行大规模研究。已经显示,可以从CBCT中提取出与CT特征一样多的可重复特征,预测NSCLC患者的总体生存率。尽管如此,CBCTdelta-放射组学的研究仍然仅限于可行性和重复性的评估。

2.2.7副作用的预测

构建了一个基于逻辑回归的分类器,结合多个特征的信息,以识别那些接受食管癌放射治疗的患者中哪些将发展为≥2级放射性肺炎。正常肺部图像特征的添加提高了模型性能,相对于放射性肺炎(RP)的传统剂量和临床预测因子,这表明在RP预测的背景下应考虑治疗前的CT放射组学特征。从用于RP的治疗计划扫描中定义的整个肺部容积中提取了CT放射组学特征。

2.2.8区分复发与良性变化

在随访图像中区分肿瘤复发与良性放射性变化可能是临床医生面临的主要挑战。一个由CT中的五个图像外观特征组成的放射组学签名显示出高度的区分能力,可以区分SBRT患者的肺肿瘤复发与固化和不透明度。同样,从CE-T1w和T2wMR中的五个放射组学特征被发现能够区分伽玛刀放射外科治疗脑转移瘤的患者的随访MR图像中的坏死与进展。

2.2.9非电离辐射和其他治疗

当对癌症或健康前列腺组织进行激光间质热疗法(LITT)时,MRI中的放射组学特征反应不同。LITT是一种对低级别、局限于器官的前列腺癌的高度有前景的局部策略。然后,一个放射组学签名可以允许评估前列腺癌是否成功消融。一个放射组学模型预测了肝细胞癌经导管动脉化疗栓塞结合高强度聚焦超声治疗后的完全反应。

3放射组学分析与机器和深度学习方法

3.1预处理

在进行放射组学分析之前,需要对图像进行预处理步骤,目的是减少图像噪声,增强图像质量,使放射组学分析可重复且可比较。对于某些成像方式,如PET,图像应转换为更有意义的表示(标准摄取值,SUV)。可以通过平均或高斯滤波器实现图像平滑。对于具有可变体素大小的数据集,体素大小重采样很重要。特别地,某些纹理特征提取需要各向同性体素大小。插值算法有两个主要类别:多项式和样条插值。最近邻是一个零阶多项式方法,它将最近邻的灰度值分配给插值点。双线性或三线性插值和双三次或三三次插值经常用于二维(2D)平面插值或3D情况。三次样条和卷积插值是三阶多项式方法,与线性方法相比,它插值更平滑的表面,但在实现上更慢。线性插值是一种常用的算法,因为它既不会导致由最近邻生成的粗糙的阻塞伪影图像,也不会导致可能由更高阶插值产生的超出范围的灰度级。

在基于特征的放射组学分析的背景下,如下所述,纹理的计算将需要对灰度级(强度值)进行离散化。有两种方法可以进行离散化:固定的箱数N和固定的箱宽B。对于固定的箱数,我们首先确定一个固定的N箱数,然后使用下面的公式将灰度级离散化到这些箱中:

其中,Xgl,k是第k个体素的强度。对于固定的箱宽,从最小值Xgl,min开始,每一个强度间隔的wb将被分配一个新的箱子。离散化的灰度级计算如下:

3.2用于放射组学的机器和深度学习算法

机器和深度学习算法为挖掘大量可用的图像数据提供了强大的建模工具,揭示了底层复杂的生物机制,并使个性化精确的癌症诊断和治疗计划成为可能。以下将简要介绍两种主要类型-基于特征工程的(传统放射组学)和非工程化的(基于深度学习)放射组学建模方法。一般来说,机器学习方法也可以分为基于特征和无特征的有监督、无监督和半监督方法。以下各节将简要讨论这些类别。图1显示了图像采集后的放射组学分析过程的工作流程图。

图1.基于特征的(传统机器学习)和无特征的(深度学习)方法的放射组学分析工作流程。

3.2.1基于特征工程的放射组学方法

传统上,提取的放射组学特征是手工制作的特征,它们捕获图像数据中的特征模式,包括基于形状的、一阶、二阶和更高阶的统计决定因素以及基于模型的(例如,分形)特征。基于特征的方法需要对感兴趣的区域(ROI)进行分割,可以通过手动、半自动或自动方法进行。基于形状的特征是区域的外部表示,它描述了ROI的形状、大小和表面信息。典型的指标包括球形度和紧凑性。一阶特征(例如,均值、中位数)描述了ROI的整体强度和变化,同时忽略了空间关系。相比之下,二阶(纹理)特征可以提供体素之间的关系。纹理特征可以从不同的矩阵中提取,例如,灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)等。语义特征是另一种可以从医学图像中提取的特征。这些特征描述了图像的定性特征,通常用于放射学工作流程。

随机森林(RF)基于决策树,这是机器学习中的一个流行概念,尤其是在医学领域,因为它们以连续的“如果-那么”表示假设,类似于人类的推理。RF将自助聚合应用到决策树,并通过降低树的高方差来提高性能。风险评估模型(分类和生存)通过RF和不平衡调整策略构建,用于头颈癌的局部区域复发和远处转移。

尽管通常用于无特征的上下文中,神经网络也可以用于传统的特征选择和建模。这些算法主要用于有监督学习,而在医学领域特别是,有很多没有标签的数据,在这些情况下,可以应用半监督学习来利用未标记的数据与少量标记的数据。自训练是用其预测获得的额外标记数据进行引导的。换句话说,支持向量机(TSVM)尽可能远离边界保持未标记的数据。基于图的方法构建一个连接相似观察的图,并使类信息能够通过图传输。

3.2.2无特征工程的放射组学方法

尽管传统的手工特征提供了有价值的先验知识,但其设计过程繁琐,可能无法准确地捕捉图像的真实特性。随着基于多层神经网络的深度学习技术的发展,特别是卷积神经网络(CNN),机器现在能够自动学习图像特征。深度学习允许数据表示和预测任务(例如分类或回归)同时进行。在这种情境下,多层神经网络通过各种模块(例如卷积或池化)和激活函数学习数据的多层次抽象表示,然后通过全连接层进行分类。

典型的应用场景是使用CNN的数据表示层作为特征提取器。网络中的每个隐藏层模块都会在某一层次上转换数据表示。例如,第一层可能表示图像中特定方向的边缘,第二层可能检测观察到的边缘中的图案,第三层可能识别出由图案组成的对象。

对于CNN网络,我们可以选择自行设计或使用现有的结构,例如VGG或Resnet。根据数据大小,我们可以选择固定参数或使用我们的数据进行微调,这也称为迁移学习。我们可以直接使用深度网络进行整个建模过程,而不仅仅是作为特征提取器。

循环神经网络(RNN)可以使用其内部记忆处理序列输入,并将先前的输出作为输入。LSTM和GRU是两种流行的RNN变体,它们通过内部门解决了长序列的梯度消失问题。

深度自编码器(AE)是一种无监督学习算法,已被应用于医学图像的特征提取。还有其他AE的变种,如变分自编码器和卷积自编码器。受限玻尔兹曼机(RBM)是另一种无监督方法,由可见层和隐藏层组成。RBM与AE非常相似,但RBM使用具有某种分布的随机单元,而不是使用确定性单元,如RELU。

如上所述,尤其在医学领域,标记数据是有限的。基于神经网络的半监督方法结合了无监督和有监督学习。这种方法通过使用来自无监督生成模型(例如,自编码器AEs、受限玻尔兹曼机RBM等)的额外损失组件来训练有监督的网络。这种结合方法旨在最大化利用有限的标记数据,同时从未标记的数据中提取有价值的信息。

机器学习方法在样本数量众多时非常有效;但在训练样本有限的情况下,它们容易出现过拟合的问题。对于深度学习,训练过程中通常会实施数据增强(例如,通过对图像进行仿射变换)。迁移学习是另一种减少训练难度的方法。它使用在其他数据集(如自然图像)上训练的深度模型,然后在目标数据集上进行微调。为了减少过拟合,网络的结构也可以进行修改,例如添加dropout和批量归一化层。Dropout在训练过程中随机停用一部分单元,可以被视为一种正则化技术,为隐藏单元添加噪声。批量归一化通过对每个训练小批量进行归一化来减少内部协变量偏移。

与基于特征的方法相比,深度学习方法更为灵活,经过一些修改后可以用于各种任务。除了分类,深度学习技术还广泛探索了分割、配准和病变检测。全卷积网络(FCN)是端到端训练的,它合并了编码器中不同阶段学到的特征,然后通过反卷积对低分辨率特征图进行上采样。U-Net是基于FCN构建的,其中池化层被上采样层替代,形成了一个近似对称的U形网络。跳跃结构将上下文信息与未采样的特征图结合起来,以实现更高的分辨率。CNN是端到端从临床图像中训练出来的,直接用于皮肤癌的二分类,其性能与专家相当。Chang等人提出了一种多尺度卷积稀疏编码方法,为学习可转移的基础知识并对其进行微调提供了一个无监督的解决方案。

3.3放射组学模型的验证和基准测试

Kaplan–Meier(KM)曲线用于从生命周期数据估计生存函数,并用于比较不同的风险组。风险组可以是接受某种计划治疗的患者和对照组,或者它们可以是来自生存模型(例如,Cox模型)的输出,该模型将患者分为高风险和低风险组。强烈建议可视化曲线的置信区间。logrank测试为不同曲线之间的差异提供了定量评估的统计显著性,这也被广泛地用于KM曲线

4医学物理实践中的实施

4.1放射组学的软件工具

在大多数已发布的放射组学研究中,都使用了内部开发的方法。然而,一些研究团队开发了图像分析/放射组学软件工具,这些工具既有商业的,也有开源的,供科学界使用。这些工具的主要目标是:(a)加速基于最新放射组学技能的能力开发;(b)允许不同研究团队的结果的可重复性和可比性,以及(c)标准化特征定义和计算方法,以确保放射组学结果的可靠性。

表1.放射组学分析的开放访问软件程序。

为放射组学创建了一个用于CT113或CBCT126的模体,称为CredenceCartridgeRadiomics(CCR)模体。它由十个密度和纹理属性不同的组件组成,以产生广泛的放射组学特征值:木头、橡胶、软木、丙烯酸和石膏。还提议了用于PET的异质病变的模体,例如,使用不同的3D打印插入物反映FDG摄取的不同异质性。

图2.由图像生物标志物标准化倡议定义的放射组学计算工作流程。

总的来说,使用标准化的计算方法将极大地提高放射组学研究的可重复性,并可能导致为社区提供的标准化软件解决方案。更可取的是,现有软件的代码应更新以符合IBSI制定的标准。此外,放射组学研究中必须包括IBSI和Vallières等人定义的特征计算详细描述,如表2所示。最终,我们设想使用专用的知识本体来通过一致的特征、图像处理参数和滤波器标记来提高放射组学分析的互操作性。放射组学本体可以提供一种标准化的方法来报告放射组学数据和方法,并更简洁地总结给定放射组学工作流的实施细节。

a为了减少观察者之间的差异,自动和半自动方法受到青睐。

b在多模态应用中(例如PET/CT、PET/MRI等),ROI定义可能涉及通过共振配准在模态之间传播轮廓。在这种情况下,还应提供配准的技术细节。

7结论

放射组学领域在医学物理领域不断发展,为医学物理社区提供了一个参与定量成像安全转化的新研究的激动人心的机会。基于机器和深度学习的模型有潜力为临床医生提供决策支持系统(DSS),以改善肿瘤学中的诊断、治疗选择和反应评估。随着该领域的扩展,将放射组学特征与其他临床和生物变量关联的需求将变得越来越重要。该领域还应继续努力实现标准化的数据收集、评估标准和报告指南,以便作为一个领域成熟。数据共享对于开发适当验证放射组学模型所需的大规模数据集至关重要,将需要跨多个机构的合作来验证模型。为了将放射组学模型引入临床实践,有必要通过专家观察者研究和最终的临床试验,证明其对临床工作流程和决策的改进。机器和深度学习领域的未来发展,以及它们在可解释性和预测之间的改进平衡,也将继续推进放射组学研究。

THE END
1.数据挖掘概念与流程和数据预处理与特征工程二、特征工程 三、数据挖掘概念 四、数据挖掘流程 一、数据预处理 数据预处理是在进行数据分析、建模等操作之前,对原始数据进行的一系列处理步骤,目的是提高数据质量,使其更适合后续的分析和处理。主要包括以下几个方面: 1. 数据收集 从各种数据源(如数据库、文件、网络接口等)获取相关的数据。收集过程中要确保数据https://blog.csdn.net/2301_81709812/article/details/143275730
2.特征工程实施步骤特征工程实施步骤 来源:Coggle数据科学 入门特征工程 1. 为什么特征工程很重要? 对于不同的数据科学家,特征工程可能呈现不同的意义。对于一些数据科学家,特征工程是我们如何缩减用于监督模型的特征(例如,试图预测响应或结果变量)。 对于其他人,它是从非结构化数据中提取数值表示以供无监督模型使用的方法(例如,试图从https://www.elecfans.com/d/6234154.html
3.数据挖掘的一种方法是机器学习,以下哪些属于使用机器学习构建AI百度试题 题目数据挖掘的一种方法是机器学习,以下哪些属于使用机器学习构建AI模型的相关步骤( )。 A. 特征工程 B. 样本切分 C. 算法选取 D. 模型评估 相关知识点: 试题来源: 解析 A,B,C,D 反馈 收藏 https://easylearn.baidu.com/edu-page/tiangong/bgkdetail?id=cb1a6c20ccbff121dd3683c4&fr=search
4.图解机器学习特征工程本篇内容,ShowMeAI带大家一起来系统学习一下特征工程,包括『1.特征类型』『2.数据清洗』『3.特征构建』『4.特征变换』『5.特征选择』等板块内容。 Titanic实战项目 我们这里用最简单和常用的Titanic数据集给大家讲解。 Titanic 数据集是非常适合数据科学和机器学习新手入门练习的数据集,数据集为1912年泰坦尼克号沉船http://www.360doc.com/content/23/0924/12/47115229_1097700467.shtml
5.数据分析流程包括哪些步骤综上所述,数据分析流程包括了问题定义、数据采集、数据探索和可视化、数据预处理和特征工程、建立模型和算法选择、模型评估和优化、模型应用和结果解释等七个步骤。 数据分析过程中需要使用的分析方法 在数据分析过程中,需要使用多种分析方法和技术,以从数据中提取有用的信息和洞察。下面介绍几种常见的数据分析方法和技https://www.linkflowtech.com/news/1597
6.数据挖掘的步骤特征工程mob64ca12e83232的技术博客数据挖掘的步骤与特征工程 数据挖掘是一个复杂而系统的过程,涉及从原始数据中提取信息和知识。一个重要的阶段是特征工程,它对于模型的性能有着至关重要的影响。在这篇文章中,我们将探讨数据挖掘的主要步骤,深入分析特征工程,并通过代码示例加以说明。 数据挖掘的主要步骤 https://blog.51cto.com/u_16213397/12325092
7.数据挖掘——特征工程没有神保佑的瓶子数据挖掘——特征工程 特征工程(Feature Engineering) 特征工程其本质上是一项工程活动,它的目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程的重要性: 特征越好,灵活性越强 特征越好,模型越简单 特征越好,性能越出色 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。特征工程的最终https://www.cnblogs.com/rix-yb/p/9827463.html
8.一种基于深度学习算法的审计知识图谱实体抽取方法与流程16.步骤2.1)提取文本通用特征hw:采用bilstm模型对描述文本w每个时刻前向和后向特征进行学习,拼接两个输出作为bilstm的输出向量。bilstm的输出向量作为berta模型输入向量进行编码,以最后一层的隐层状态作为描述文本w的通用语义特征hw; 17.步骤2.2)构建审计特征专业词典la:通过词典匹配找到输入文本中所有可能形成专业表达https://www.xjishu.com/zhuanli/55/202111682324.html
9.深度学习500问——Chapter02:机器学习基础(1)当原始数据搜集和标注完毕,一般搜集的数据并不一定包含目标在各种扰动下的信息。数据的好坏对于机器学习模型的预测能力至关重要,因此一般会进行数据增强。对于图像数据来说,数据增强一般包括:图像旋转,平移。颜色变换,裁剪,仿射变换等。 步骤3:特征工程(Feature Engineering) https://cloud.tencent.com/developer/article/2398336
10.特征工程之前言介绍(0.0):什么是特征工程?特征工程解决了什么特征工程是数据挖掘模型开发中最耗时、最重要的一步。 意义 特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。 特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发https://www.jianshu.com/p/da661b73ede1
11.数据挖掘论文而在医疗信息管理过程之中应用数据挖掘技术能够较好地针对医疗卫生信息进行整理与归类来建立管理模型,形成有效的总结数据的同时能够为医疗工作的高效进行提供有价值的信息。所以笔者将以数据挖掘技术在医疗信息管理中的应用为着手点,从而针对其应用现状进行探究,以此提出加强数据挖掘技术在医疗信息管理中应用的具体措施,希望https://www.ruiwen.com/lunwen/7945818.html
12.不会做特征工程的AI研究员不是好数据科学家!上篇任何智能系统基本上是由一个端到端的流程组成,从数据原始数据开始,利用数据处理技术来加工、处理并从这些数据中设计出有意义的特征和属性。然后我们通常利用统计模型或机器学习模型在这些特征上建模,如果未来要使用的话,就基于眼前要解决的问题部署模型。一个典型的标准的基于CRISP-DM(注:跨行业数据挖掘标准流程)工业https://www.leiphone.com/category/ai/T9JlyTOAMxFZvWly.html