本指导原则是对肺结节CT图像辅助检测软件的一般要求,申请人应依据产品的具体特性确定其中的内容是否适用。
2022年5月26日,国家药监局器审中心官方发布《肺结节CT图像辅助检测软件注册审查指导原则》,全文奉上。
肺结节CT图像辅助检测软件注册审查指导原则
一、适用范围
本指导原则适用于肺结节CT图像辅助检测软件的产品注册。按现行《医疗器械分类目录》,该类产品分类编码为21-04-02,管理类别为三类。设备中所含肺结节CT图像辅助检测功能也适用于本指导原则。采用非人工智能算法的肺结节CT图像辅助检测软件可参照本指导原则执行。
二、注册审查要点
(一)监管信息
明确申请表中产品名称、管理类别、分类编码、型号规格、产品组成等信息。1.产品名称产品命名需符合《医疗器械通用名称命名规则》的要求。根据产品预期用途可采用肺结节CT图像辅助检测软件进行命名。2.分类编码依据《医疗器械分类目录》,申报产品分类编码为21-04-02。按第三类医疗器械管理。
(二)综述资料
注:表1中全新是对当前深度学习算法的全新算法的示例
4.算法研究资料
4.1算法基本信息
4.1.2肺结节密度分类算法
肺结节密度分类算法需明确输出(密度类别),密度类别制定依据以及临床适用性。肺结节密度分类算法需明确算法的输入,比如算法采用的是2D,2.5D还是3D的图像作为算法的输入。若采用2D,需明确肺结节选取的图像层面,如中心层面,最大面积层面;明确算法所采用的神经网络结构,如ResidualNet,Dense-Net;明确算法训练采用的损失函数,如交叉熵,Focal损失函数;损失函数等核心组件选择和设计的原则、方法与风险考量,如肺结节大小尺度的差异,不同类别肺结节样本的不均衡性、过拟合等;若肺结节分类采用多个模型融合,需明确不同模型训练与推理的方式,以及模型融合的策略,如多数投票;最后,明确算法的流程图,训练与部署所采用的框架(如Tensorflow,Pytorch)、算法运行环境(如内存、显存的需求)。4.1.3肺结节测量算法
针对肺结节测量算法,明确测量原理(基于像素点数),测量实现的方式,如肺结节体积测量算法、密度值测量算法与长径短径测量算法可以通过肺结节分割技术来实现,也可以通过机器学习中的回归方法来进行预测。测量内容包括长径、短径、体积、面积、平均HU值等,其中密度值测量算法需明确测量的类型,如平均值,标准差,最大值,最小值,中位数。
4.1.4肺结节肺叶肺段定位算法
肺结节肺叶肺段定位算法中,明确肺结节定位的类别,如左/右肺定位、肺叶定位、肺段定位。明确算法输入的类型,如肺结节二维切片,肺结节三维图像块,若输入类型为二维切片,明确二维切片选取标准(如肺结节长径短径交点所在切片、肺结节最大面积切片)。肺结节肺叶肺段定位算法需明确实现的机理,如基于肺段分割算法实现解剖定位,基于图像分类算法实现解剖定位。若申报产品涉及上述多个算法,需提供算法整体流程图,明确各个算法调用先后关系,以及输入输出依赖关系。若使用迁移学习技术,除上述内容外还需补充预训练模型的数据集构建、算法测试等资料。
4.2算法需求规范
4.2.1数据库需求
算法性能评价需要基于训练和测试数据库,数据库具体要求详见附件2。
4.2.2算法性能评价指标
在指定肺结节检出算法评估指标之前,需确定器械标记的位置和范围和参考标准之间的匹配性,需明确标记匹配的方式,即算法标记目标与参考标准目标的匹配方式,常见的标记匹配方式有按照区域重叠的比例(面积、体积)、中心点的距离、中心是否落入来判断标记是否匹配;还需明确声称的标记匹配的阈值。明确算法任务,明确算法训练和调优过程中不同任务的评估指标及定义。有关标记匹配方式与评估指标的定义可以参考“人工智能医疗器械肺部影像辅助分析软件算法性能测试方法”
5.1.1.1章节。
4.2.3算法性能测试基本要求
4.2.3.1结节检出
需给出软件检出肺结节的召回率和精确度的阈值。测试产品定位准确程度时,只有真阳性检出的结节,且位置正确的标记才能算作正确标记。召回率和精确度的计算一般针对全体结节进行。在设置筛选条件后,可以使用筛选后的参考标准与筛选后的AI结果进行匹配。如筛选后假阳性结果难以定义,建议以召回率为主要指标,常见情形为:-对具体某一种结节类型,计算结节的召回率。-对平均直径、长径处于某一区间的结节,计算召回率-对类型、尺寸范围组合的结节,计算召回率。
4.2.3.2结节分类
明确分类场景,如二分类场景、多分类场景。对于二分类场景下的指标,如软件能够对A类型的肺结节进行分类,需给出准确率、灵敏度、特异性的阈值。总体的Kappa系数不低于N%;多分类问题可以转化为二分类问题,按每一类进行描述。
4.2.3.3结节分割
如果产品在三维上进行结节分割,需给出算法可以达到的体积交并比或者DICE系数的阈值。如果产品只输出最大层面的分割,则需给出算法可以达到的最大层面面积交并比或者DICE系数的阈值。测试集数据的平均交并比或者DICE系数的95%置信区间应大于等于该阈值。
4.2.3.4结节测量
需明确测量内容,如体积、密度、尺寸测量;需明确各测量内容的测量误差。对于尺寸测量长径小于等于10mm需增加平均直径允差,大于10mm需增加短径允差。
4.2.3.5结节肺叶肺段定位
结节肺叶肺段定位需明确定位的具体功能(如采用边缘勾画方法展示肺叶肺段分割结果、仅采用文字描述结节所处肺叶肺段),肺叶、肺段标记标签分布(如左肺上叶尖后段、左肺上叶前段、右肺中叶外段……)、基于不同功能确定测试指标(如结节所处左右肺准确性、肺叶准确性、肺段准确性、肺叶肺段分割的DICE系数或其他合理指标)及测试指标的计算方法、参考标准建立的方法、测试流程。测试产品定位准确程度时,只有真阳性检出的结节,且位置正确的标记才能算作正确标记。
4.2.4样本量
明确样本量估计的公式、参数及制定依据。研究样本应足够大,以使声称的性能具有统计学显著性,若有分层性能的声称,应确定子集的样本量以检测声称的统计学显著性。
4.2.5测试方法
需明确测试方法及制定依据。
4.3数据质控
建议参考“人工智能医疗器械注册审查指导原则”及“人工智能医疗器械质量要求和评价第2部分:数据集通用要求”。
4.3.1数据采集
需提供数据采集协议,需要考虑明确偏倚控制的方法,如通过各亚组设置进行偏移控制,不应为提高算法结果刻意筛选数据。采集数据的地区分布需覆盖东西南北中地区。明确数据库信息(要求详见附件2)
4.3.2数据整理
明确数据转移保存的方法。明确数据纳入排除标准,以及进行数据筛选的方法(人工清洗、自动清洗),提供数据整理软件工具的研究资料。提供数据清洗流程图,明确清洗规则,例如确定数据合规性、图像唯一性、层厚、层间距等信息满足要求、连续性、完整性、已完成脱敏等并加以筛选。清洗结果明确弃用数据的数量和原因。明确预处理的操作步骤和内容。
4.3.3数据标注
数据标注建议参考“人工智能医疗器械质量要求和评价第3部分:数据标注通用要求”。需明确标注任务分类(包括数据模态、执行主体、标注结果格式、标注结果性质、标注结果形式等维度),提供标注任务描述文档(标注规则、标注人员、标注工具、标注环境、数据)。其中标注规则需明确制定依据并提供参考文献。标注内容宜包括结节检出、结节位置(肺叶、肺段、结节层面)、结节大小、结节密度、角度等。标注人员建议列表给出标注、审核、仲裁人员的基本信息,如数量、医疗机构、科室、工作年限、职称、培训、培训考核情况、工作量、标注任务、人员类型(标注、审核、仲裁)。标注与质控流程建议提供业务架构、过程组织(任务生成、任务分配、任务实施、质量控制、验收准则及验收报告)。其中业务架构宜采用流程图介绍单例数据的标注、审核、仲裁过程。明确标注是否基于另一器械的输出、临床检验(如病理检测结果)、随访临床成像检查、除成像外的随访体检、临床医生的解释。如标注工具、标注平台使用人工智能算法进行辅助标注,需提交标注工具、标注平台算法性能研究资料。
4.3.4数据集构建
依据《人工智能医疗器械注册审查指导原则》指南明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。提供查重验证结果,以证实训练集、调优集、测试集的样本两两无交集。数据扩增需明确扩增的对象、范围、方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生成对抗网络等)、倍数、在线数据扩增记录。提供扩增数据库与标注数据库样本量、样本分布(注明扩增倍数)对比表,以证实扩增数据库样本量的充分性以及样本分布的合理性。如果采用生成对抗网络进行数据扩增,应提供生成对抗网络的算法基本信息以及算法选用依据资料。
4.4算法训练
4.5算法验证与确认
4.6算法性能综合分析
结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。需对算法测试产生的错误结果进行分析,评估算法在检出、分类等任务中出现的假阳性、假阴性结果的含义与危险程度,形成定量报告。
5.用户培训方案
(四)产品说明书和标签样稿
采取风险控制措施前后的风险矩阵表示例
表3采取风险控制措施前的风险分布图
表4采取风险控制措施后的风险分布图
附件2
不感兴趣
看过了
取消
人点赞
人收藏
打赏
我有话说
0/500
同步到新浪微博
您的申请提交成功
您已认证成功,可享专属会员优惠,买1年送3个月!开通会员,资料、课程、直播、报告等海量内容免费看!