主管:中国科学技术协会主办:中华医学会主编:许迅刊期:月刊ISSN:1005-1015CN:51-1434/R
引用本文:中华医学会眼科学分会眼底病学组,人工智能研发应用专家指导组.面向基层的人工智能眼底彩色照相黄斑区域病变体征筛查系统规范化设计及应用指南.中华眼底病杂志,2022,38(9):711-728.doi:10.3760/cma.j.cn511434-20220616-00364复制
12、眼内占位性病变(intraocularspace-occupyinglesions)。该病变表现多样,临床上需结合其他辅助检查协助诊断。
13、其他。非上述类别体征的黄斑区异常。
下载CSV
值得注意的是,本指南给出了上述13种黄斑区域病变体征。筛查系统设计人员在定义系统可筛查病变体征时,请根据产品设定,按实际需求参考本指南及医学专家建议。
AI算法除了用于病变体征的分析,还可以扩展至疾病维度的应用中,本指南给出疾病分类和分级两个应用参考,可作为筛查系统的后续扩展功能。病变体征筛查系统无需包含这两种疾病维度的功能。
1、疾病分类。AI算法可对输入图像进行是否有黄斑区域疾病的判别,该功能的结论是有或无黄斑区域疾病,属于二分类任务。若需细分到具体黄斑区域疾病种类,可扩展成多分类或多类别分类任务。该场景中AI算法和临床中疾病诊断结果参考标准的Kappa值可衡量AI算法与专业医生诊断结果的一致性。
本指南建议数据集中图像的收集需考虑以下纳入与排除标准:纳入标准:(1)单视野/双视野拍摄的眼底彩照;(2)图像质量为合格或可接受。排除标准:(1)图像质量为不合格;(2)图像中存在治疗痕迹。
值得注意的是,为了符合筛查系统应用时输入的图像可能存在质量高低不一致的实际情况,在收集数据时,不可人为挑取质量好的眼底图像。在各家医疗机构收集图像时,应当从以往队列中随机抽取样本构建数据集。
2、模型构建数据集划分
3、模型构建数据集数量
由上一节模型构建数据集划分可知,本指南建议测试集占比达到总数据集数量的10.00%。下面本指南将根据AI模型的预期效果,推导测试集中各病变体征类别图像需要的数量,以此提供模型构建数据集总数量的建议。
公式(1)中:Z为可信水平的Z统计量,Δ为允许误差,P为预期评估指标(灵敏度或特异性),N为所需样本量。设定显著性水平α=0.05(双侧),则预期评估指标的允许误差Δ为5%:
(1)当AI模型预期的灵敏度为90%、特异性为90%时,则各病变体征所属图像对应的阳性或阴性样本量最小分别为:
即,测试集中包含本指南第2部分第2节“黄斑区域病变体征”中定义的各病变体征和无目标体征样本分别至少需要138张图像。(2)当AI模型预期的灵敏度为85%、特异性为85%时,单类最少需196张图像。
此外,本指南建议收集的数据集中每类样本的样本数量按照采集机构和机型均衡分配;每类样本中样本性别和所属年龄段分布建议参考病变体征对应的黄斑区域疾病在不同性别和不同年龄段的发病率。
模型效果检验数据集数量通常由厂商和第三方机构根据检测要求制定。此外,也可参考本指南第4部分第2节第3点“模型构建数据集数量”中模型构建过程中测试集数量,准备的数据集中涉及本指南第2部分第2节“黄斑区域病变体征”定义的每类病变体征的样本数量至少为200张,包含的临床正常眼底图像至少700张,包含有其他眼底疾病的眼底图像至少100张。同时,为了满足对不同质量图像筛查效果的验证,检验数据集中需要有图像质量合格和可接受两种情况的测试样本,其中图像质量的判断标准请参考本指南“数据收集与质量控制”中数据质量控制标准。按照评估指标的可信区间样本量计算公式(1),检验数据集中每种质量的图像应至少有200张。每个检验图像上的图像质量标签和包含病变体征标签同时存在。
上述数据集的标注和临床试验数据集的中心阅片,均可采用本节描述的标注方式,标注后的结果作为各个任务的“参考标准”。
1、标注模式
2、标注人员
标注人员应接受数据标注培训,培训内容应包含标注软件操作流程,标注规程等。人员培训及考核具体内容如下:(1)培训内容:1)为了规范标注过程,需由标注系统研发工程师对标注医生、评估医生和仲裁专家就如何使用标注系统进行培训。2)为了统一对眼底图像标注规则的认识,需由眼底病专家(三甲医院眼底病专业主任医师)依据病变体征的定义对标注医生进行培训。(2)考核机制:1)采用实操的方法进行考核。从每个病变体征随机选取一定张数的图像作为考核图像,由眼底病专家和参加考核的标注医生同时标注所有选取图像指定形式的标签(详见第4部分第3节“数据集标注”),计算标注医生与眼底专家标注结果的一致率。2)考核指标:标注一致率要求不低于一定比例。根据眼底专家评估,本指南建议考核合格的标注医生和眼底病专家标注一致的样本数占比不低于80%。
3、标注过程
4、标注质量评估
在标注过程中,本指南建议对标注质量进行评估。评估可从正确性和重复性两个角度进行。评估过程与标注人员考核过程相似,从已标注图像中随机抽取一批图像(建议包含200个样本)作为评估图像集,请眼底病专家对评估图像集进行标注。正确性评估:对比标注医生和眼底病专家对评估图像集的标注结果,若标注结果一致率达到预设比例,则认为标注医生标注正确性合格。重复性评估:将评估图像集重复投入标注数据池,由标注医生进行二次标注,随后对比评估图像集中各图像两次标注结果,若标注结果一致率达到预设比例,则认为标注医生标注重复性合格。标注质量不合格的医生将接受二次培训,标注不合格的图像将抹去已有标签后放回标注数据池重新进行标注。
本指南中涉及的第2部分第2节“黄斑区域病变体征”筛查AI模型负责提供图像中有或无黄斑区域病变体征存在的参考意见、具体病变体征的分割或定位可视化展示等。
本指南第3部分“AI算法在黄斑区域病变体征筛查汇总的应用场景”中介绍了AI算法在黄斑区域病变体征筛查中的应用场景有病变体征检测、病变体征定位、病变体征分割以及扩展的疾病分级和疾病诊断。本指南将按照不同的应用场景介绍算法模型的评估指标。
1、病变体征检测
特异性(special,Spe):真阴性病例占全体阴性病例的比例。
漏检率(missrate,MR):即检测中未发现的阳性样本占全体阳性样本的比例。
精确率(precision,Pre):又称查准率、阳性预测值,是真阳性样本占算法判为阳性样本的比例。
阴性预测值(negativepredictionvalue,NPV):真阴性样本占被算法判为阴性样本的比例。
准确率(accuracy,Acc):算法诊断正确的样本占全体样本的比例。
F1分数:召回率和精确率的调和平均数。
约登指数:也称正确指数,假设假阴性(漏诊率)和假阳性(误诊率)危害同等意义,约登指数为灵敏度与特异度之和减去1,指数越大说明筛查效果越好。
受试者操作特征(receiveroperatingcharacteristic)曲线下面积(areaundercurve)。受试者操作特征是通过在一组预设阈值下计算筛查系统在测试集上的灵敏度和特异性,从而产生一组(1-特异度,灵敏度)操作点,将这些操作点依次连接形成的曲线。
Kappa系数:用于评价筛查系统与参考标注诊断结果一致性的指标。
公式(11)中R1是真阳性和假阳性例数的总和,R2是假阴性和真阴性例数的总和,C1是真阳性和假阴性例数的总和,C2是假阳性和真阴性例数的总和,N是样本例数总和。
2、病变体征定位
定位任务的结果可以有两种表现形式:一是输出目标中心点的坐标信息,二是输出目标所在方框的信息。对于第一种只输出一个点坐标的模型,评估指标通常选用平均欧式距离;对于第二种输出一个矩形框的模型,处理的是目标探测任务,评估指标通常为交并比和平均的精确率均值。
平均欧式距离(meaneuclideandistance,MED):
交并比(intersectionoverUnion,IoU),衡量预测框和医生标注的目标框参考标准的重叠程度:
公式(14)中K为目标检测任务中包含类别总数,APi为第i个类别目标预测结果的AP测度值。
3、病变体征分割
分割任务的模型评估指标主要有DICE系数(dicecoefficient)、Jaccard系数(交并比)、灵敏度、特异性等。其中,由于分割任务可视为将图像像素点分为前景与背景的二分类任务,因此灵敏度和特异性两个指标可用于评估分割模型对每个像素点判别的效果。
DICE系数,分割轮廓与参考标准轮廓的交集占分割轮廓与参考标准轮廓平均值的比例:
其中|X∩Y|是X和Y之间的交集,|X|和|Y|分表表示X和Y的元素的个数。
Jaccard系数(jaccardcoefficient):分割轮廓与参考标准轮的交集占分割轮廓与目标轮廓并集的比例,又称交并比(IoU)。
4、其他应用模型评估
本指南第3部分第4节“AI算法的其他应用”介绍了两类在疾病维度分析的AI模型,分别用于疾病的分类(诊断)和分级。由于这两类应用均属于分类研究,因此评估指标可参考本指南第4部分第5节第1条。
5、模型综合评估指标
黄斑区域病变体征辅助筛查系统应当具备的架构包括受检者管理、采集图像显示、采集图像质量评估、AI筛查、专科医生拟诊意见输入和报告生成。筛查系统的功能视实际应用需求而定,可包括判别病变体征是否存在、病变等级、提供病变体征所处区域、具体轮廓等功能。系统的部署应当适应相应机构的环境和网络情况。
1、受检者管理
2、图像显示
展示采集的右眼、左眼的眼底图像。该图不可编辑,但可被缩放、平移,方便医生分析。
3、图像质量评估
本指南建议采用的质量评分方案应覆盖拍摄位置、亮度、清晰度、以及信息是否缺失四部分(详见第4部分第1节“数据收集与质量控制”),以判断图像质量是否能够用来观察或检测黄斑区域病变体征。筛查系统可提供当前采集图像的质量评估结果(合格、可接受、不合格)。
4、AI筛查
筛查系统最主要的模块即为AI筛查,系统开发者需根据设计的筛查功能,训练相应的AI模型,使其完成AI筛查环节。AI模型输出的结果将展示在筛查系统提供的最终报告中,且需注明“该结果来自AI筛查系统”。报告中展示的筛查结果形式取决于系统预设的筛查功能,即预测受检者是否属于转诊病例、判断图像中具体出现了何种病变体征、提供病变体征所处区域、病变体征轮廓信息等。
5、专科医生拟诊意见
6、报告生成
7、筛查系统部署方式
离线版AI黄斑区域病变体征筛查系统部署在本地设备中,在线版AI黄斑区域病变体征筛查系统使用云端远程部署。
拍摄的图像质量需按照本指南第4部分第1节“数据收集与质量控制”中的标准进行判别,对于不合格图像需重新拍摄。
1、彩色眼底图像的质量评估
AI系统分析前可对图像进行质量评估,此模块将根据图像质量控制标准,从拍摄位置、清晰度和可读范围三个角度考察采集图像的质量:(1)拍摄位置:检查图像各区域是否有偏转、移位。(2)清晰度:检查对焦是否准确,视盘表面、视网膜主干血管、视网膜分支血管、黄斑、视网膜病变等结构是否清晰可辨。(3)可读范围:检查视野范围内是否完整包含视盘、黄斑区、上下血管弓区域,是否有睫毛或其他异物遮挡。
图像质量分为合格、可接受、不合格三种。若检测中采集图像质量合格,则正常进行后续AI筛查分析;若图像质量为可接受,操作者可选择继新进行AI筛查分析,但在“筛查结果”处应注明“图像质量偏差,结果仅供参考”,另外操作者也可选择重新拍摄受检者眼底图像;若图像质量不合格,操作者必须重新采集受检者眼底图像,若3次拍摄均得到质量不达标的图像,则拍摄失败,无法进行后续AI筛查分析。
2、筛查方案指导标准和原则
(1)黄斑区域病变体征分割/定位指导标准
针对本指南第2部分第2节“黄斑区域病变体征”中列出的黄斑病变体征(玻璃膜疣、地图样萎缩、新生血管、渗出、出血、瘢痕、色素增生等),建议AI筛查系统提供体征分割结果的可视化展示。为了方便医生观察病变,本指南建议筛查系统提供的可视化方式为病变体征分割结果的边缘显示或定位结果的检测框显示。
(2)黄斑区域病变体征检出指导标准
按照本指南第2部分第2节“黄斑区域病变体征”列出的病变体征定义,建议AI筛查系统提供输入眼底彩照中是否有以上体征存在的判别结果。
(3)黄斑区域病变体征筛查的指导原则
参照我国《中华人民共和国数据安全法》、《个人信息保护法》、《网络安全法》、《人口健康信息管理办法》,应做到:
3、数据使用日志管理:捕获系统内完整活动的记录且不可更改,确保每一项用户破坏性操作被记录审计、保证操作可回溯,进而可辅助快速定位系统是否遭受恶意的操作和攻击。
4、传输加密:需通过安全传输方式和标准加密协议,满足平台以及传输敏感数据的需求,避免数据被非法访问、窃听或旁路嗅探。设置敏感数据流转监控、数据流转关联分析等环节,保证流转操作安全进行。
5、存储安全:数据存储过程需使用加密措施进行防护,降低数据泄露风险。加密算法需使用安全强度符合国家安全要求的商用密码算法。存储阶段除了保障数据访问权限的控制,还需考虑备份和容灾问题,可通过本地存储、网络存储等多种方式实现数据多副本多数据中心的同步和备份,实现数据的异地容灾,从容应对极端灾难。
6、明确责任人:AI黄斑区域病变体征筛查系统落地应用的机构需明确数据安全责任人,并制定数据安全的管理制度和应急机制。
本指南针对的是输入眼底彩照单一模态数据的病变体征筛查场景,由于黄斑区域疾病的复杂性,单一模态数据无法提供全面的眼结构和病变信息,因此未来可发展多种眼底图像模态输入的AI辅助黄斑区域疾病的筛查系统。值得注意的是,这种辅助筛查系统迫切需要眼底检查硬件的发展,如出现方便拍摄、价格低的光相干断层扫描采集设备等。目前已达成共识的是AI系统在医疗中的应用需要有专业医生的复核,因此,AI可视为辅助医生的工具,AI筛查不等同于专业医生诊断。目前AI筛查系统在某些疾病/体征的早期筛查中有很好的应用,可缓解筛查人口基数大、专业医生人数不足等问题。相信在未来,会有更多基于智能技术的疾病/体征筛查系统出现。
形成指南意见的专家组成员
医学意见指导专家组
中华医学会眼科学分会眼底病学组
张明四川大学华西医院(本文主要负责人,执笔)
许迅上海交通大学附属第一人民医院(组长)
王雨生第四军医大学西京医院(副组长)
魏文斌首都医科大学附属北京同仁医院(副组长)
赵明威北京大学人民医院(副组长)
陈有信北京协和医院
李筱荣天津医科大学眼科中心
陆方四川大学华西医院
刘庆淮江苏省人民医院
雷博河南省眼科研究所
曲进锋北京大学人民医院
文峰中山大学中山眼科中心
俞素勤上海交通大学附属第一人民医院
杨卫华南京医科大学附属眼科医院
张少冲深圳市眼科医院
杜亮四川大学华西医院中国循证医学中心
王冬玥四川大学华西医院(非学组委员,秘书)
人工智能技术意见指导专家组
许言午北京百度网讯科技有限公司(执笔)
刘江南方科技大学计算机科学与工程系
徐向民华南理工大学未来技术学院
陈杰鹏城实验室
谭明奎华南理工大学软件学院
夏勇西北工业大学计算机学院
雷柏英深圳大学生物医学工程学院
赵一天中国科学院宁波材料所慈溪生物医学工程研究所
朱鹏志广东省医疗器械质量监督检验所
方慧卉北京康夫子健康技术有限公司(秘书)
杨大陆北京百度网讯科技有限公司
孙钦佩北京康夫子健康技术有限公司
张思琦北京百度网讯科技有限公司
指南外审专家组成员
医学专家组
姚克浙江大学医学院附属第二医院
黎晓新厦门大学附属厦门眼科中心
王宁利北京同仁医院
孙兴怀复旦大学附属眼耳鼻喉科医院
惠延年空军军医大学西京医院
陈长征武汉大学人民医院
李世迎厦门大学附属翔安医院
刘晓玲温州医科大学附属眼视光医院
卢海北京同仁医院
吕林中山大学中山眼科中心
彭晓燕北京同仁医院
沈吟武汉大学人民医院
孙晓东上海交通大学附属第一人民医院
王敏复旦大学附属眼耳鼻喉科医院
徐格致复旦大学附属眼耳鼻喉科医院
严宏西安市第四医院
颜华天津医科大学总医院
于伟泓北京协和医院
张含中国医科大学附属第一医院
赵培泉上海交通大学医学院附属新华医院
人工智能专家组
闵栋中国信息通信研究院云计算与大数据研究所
王浩中国食品药品检定研究院
何晖光中国科学院自动化研究所
段立新电子科技大学计算机科学与工程学院
吴庆耀华南理工大学软件学院
表1指南中定义的黄斑区域病变体征与常见眼底疾病的对应关系
表2筛查系统功能(拟提供的信息)与标注形式对应表
表3黄斑区域病变体征标注参考示例
点击下面内容复制并粘贴一种已设定好的引用格式。
引用本文:中华医学会眼科学分会眼底病学组,人工智能研发应用专家指导组.面向基层的人工智能眼底彩色照相黄斑区域病变体征筛查系统规范化设计及应用指南.中华眼底病杂志,2022,38(9):711-728.doi:10.3760/cma.j.cn511434-20220616-00364