打开手机扫描二维码即可在手机端查看
医学正处在两大趋势的十字路口。第一种是失败的商业模式,增加了医疗支出,增加了医疗卫生工作岗位,但主要结果却在恶化,比如美国,他们的预期寿命缩短,婴儿、儿童和产妇死亡率高。这证明了一个悖论,这个悖论并不局限于美国医学界:投入更多的人力成本,却会导致更糟糕的人类健康结果。第二种是产生大量的数据,这些数据来自高分辨率医学成像、生物传感器和连续输出的生理指标、基因组测序和电子医疗记录。仅靠人类分析此类数据显然不行,因此有必要增加对机器的依赖。因此,在提供医疗保健方面,人们比以往任何时候都更迫切地需要算法的帮助。然而,在医学领域,人类与人工智能(artificialintelligence,AI)的融合才刚刚开始。
同样,DNNs也被广泛应用于各种医学扫描中,包括骨折的骨片、年龄评估、结核病的分类和椎体压缩性骨折;CT扫描肺结节、肝脏肿块、胰腺癌和冠状动脉钙化分数;脑部扫描是否有出血、颅脑外伤和急性转诊的迹象;磁共振成像;超声心动图;乳腺钼靶检查。一项前瞻、双盲、随机对照试验使用了真实病例,结果表明,深度学习算法解释扫描结果的速度比放射科医生快150倍(1.2秒vs177秒),但得出的结论是,该算法的诊断准确性低于人类的表现,这令人清醒,表明还有很多工作要做。
对于每一项研究,研究者都使用了大量的标记扫描来进行训练和随后的评估,AUC的范围从髋部骨折的0.99,到颅内出血和肝包块的0.84,再到急性神经系统病例筛选的0.56。但由于研究方法的显著差异,无法比较不同研究之间DNN的准确性。此外,ROC和AUC指标不一定代表临床效用,甚至也不一定是表现模型准确性的最佳方式。就算法的准确性而言,验证其性能并不等同于证明其临床疗效。这就是研究者所说的“人工智能鸿沟”,也就是说,一个AUC为0.99的算法如果没有被证明可以改善临床结果,那么它就没有多大价值。在经过同行评议的研究中(表1中进行了总结),唯一的前瞻性验证研究在真实世界已经对糖尿病性视网膜病变、手腕骨折、乳腺癌转移、结肠息肉、先天性白内障进行了验证,很明显,这一领域还远远没有显示出非常高的精度,更不用说临床应用。
病理学
在利用图像分析对皮肤癌进行分类的算法中,将深度学习网络的诊断精度与皮肤科医生的诊断精度进行了比较研究。在一项使用了近13万张摄影和皮肤镜数字化图像的大型训练数据集的研究中,21名美国委员会认证的皮肤科医生的表现至少与一种算法相匹配,该算法对恶性肿瘤的AUC为0.96,对黑色素瘤的AUC为0.94。随后,58名国际皮肤科医生对黑色素瘤皮肤癌诊断的准确性与卷积神经网络进行了比较;平均的ROCs分别是0.79和0.86,这反映了与大多数医生相比,该算法的性能更好。第三项研究对12种皮肤病进行了算法评估,包括基底细胞癌、鳞状细胞癌和黑色素瘤,并与16名皮肤科医生进行了比较,算法对黑色素瘤的AUC为0.96。这些研究都不是在临床情景中进行的,在临床,医生会进行身体检查,并承担做出准确诊断的责任。如果人工智能能够可靠地模拟有经验的皮肤科医生,那将是一个巨大进步。
眼科学
虽然目前对视网膜OCT和眼底图像的研究主要集中在眼病上,但最近的研究表明,这些图像还可以为大脑提供一个早期诊断痴呆(包括阿尔茨海默病)的窗口。
视网膜照片的潜在用途似乎也已超越了眼疾本身。DNN对28多万名患者的图像进行了心血管危险因素的评估,包括年龄、性别、收缩压、吸烟情况、糖化血红蛋白和发生重大心脏不良事件的可能性,并在两个独立的数据集进行了验证。AUC为0.97表明该算法能准确识别。
其他经神经网络用于不太常见的眼病包括新生儿先天性白内障和早产儿视网膜病变的评估表明,算法的准确性可与眼科专家相媲美。
心脏病学
心脏病学家使用的主要图像是心电图(electrocardiograms,ECG)和超声心动图,这两种图像都用DNNs进行了评估。使用机器读ECGs已有近40年的历史,但其准确性非常低。当使用深度学习在含549个心电图的数据集里诊断心脏病时,报告的敏感性为93%,特异性为90%,与心脏病学家相当。对于超声心动图,一组267例患者的83万多张静态图像被DNN和心脏病学家分成15个标准视图(如心尖4腔或肋下)。对于单张静止图像,算法的整体准确率为92%,4名超声心动图专业医师的准确率为79%,但这并不能反映真实世界的结果。一项囊括超过8000例超声心动图的更大的回顾性研究显示:算法对肥厚性心肌病(AUC,0.93)、心脏淀粉样变(AUC,0.87)和肺动脉高压(AUC,0.85)的分类准确率很高。
胃肠病学
在结肠镜检查中发现小于5毫米的腺瘤性息肉或无蒂息肉对胃肠病学家来说是非常困难的。对325例微小息肉患者进行的首个人工智能前瞻性临床试验证实,常规结肠镜检查的准确率为94%,阴性预测值为96%;人工智能诊断的速度是35秒,而且该算法对新手和胃肠病学专家都同样有效,不需要注射染料。在另一项独立研究中也证实了这一结果。这样的结果表明:机器视觉,在高倍放大下,可以准确和快速地解释特定的医学图像,优于人类。
心理健康
全世界有3.5亿人在与抑郁作斗争,精神健康的巨大负担值得注意,而人工智能有能力为患者和数量远远不足的临床医生提供支持。正在开发的各种工具包括通过语音、面部识别、传感器和交互式聊天机器人的使用,对抑郁和情绪进行数字跟踪。脸书上的帖子已经被证明可以预测抑郁症的诊断,这些诊断后来被记录在电子医疗记录中。
机器学习已被探索用于预测哪种抗抑郁药物可能成功、抑郁的特征、预测自杀的发生,以及预测精神分裂症患者的精神病发作。人工智能算法在许多其他临床科室也得到了广泛使用,如促进脑卒中、自闭症、心脏病的诊断,帮助麻醉医师在手术过程中避免低氧合等。图2展示了人工智能在医学中应用的广度。许多初创公司和老牌科技公司都在努力开发自然语言处理技术,以取代诊所就诊时对键盘和抄写人员的需求。活跃在这个领域的公司包括微软、谷歌等。
人工智能和健康系统
从理论上讲,能够预测关键结果可以使医院姑息治疗资源的使用更加有效和精确。例如,如果可以使用一种算法来估计病人重新入院的风险,那么就可以采取步骤来避免出院,并将资源调拨到潜在的问题上。而根据常规的临床出院标准,这种风险是无法检测到的。对于危重病人,对生存期的预测极有可能会帮助这个病人及其家人和医生做出关于复苏、气管插管、机械通气,和其他侵入性措施的决定。同样,人工智能预测工具也可以判断哪些患者可能受益于姑息治疗,以及判断谁有发展为败血症或感染性休克的风险。使用电子健康记录数据,机器和深度学习算法已经能够预测从阿尔茨海默病到死亡的许多重要临床参数(表2)。例如,在最近的一项研究中,深度学习在为脓毒症患者选择治疗方案时,比如升压、静脉输液、药物和剂量的选择,由“人工智能医生”选择的治疗方法比由人类医生选择的治疗方法更有效。但这一结果还没有在真实的临床情景下得到验证。尽管如此,仍有许多公司已经在推广这类算法,比如Careskore,它为卫生系统提供基于EHR数据的再入院风险和死亡率评估。
目前,还不清楚人工智能在医疗情景中预测关键结果的能力有多强,这要等到未来在真实临床环境下通过严格的统计方法和分析得到强有力的验证后才能确定。
机器视觉
可穿戴设备
可穿戴传感器可以持续监测机体所有重要信号——包括血压、心率和心律、血氧饱和度、呼吸频率和体温——未来有可能抢占先机,被大量住院患者所采用。目前还没有针对远程监控的算法开发和预期测试,但这值得大力研究,因为它可以在不牺牲患者和家人便利和舒适的情况下降低护理成本。
提高效率
据估计,人工智能每天要处理2.5亿多张图像,而成本仅约为1000美元,这意味着可以节省数十亿美元。除了可以从人工智能辅助的图像解释和临床支持中提升生产力和改进工作流之外,还有可能减少许多后勤、行政工作的劳动力,如编码和计费、手术室和诊所预约的调度以及人员配备。在宾夕法尼亚州的盖辛格健康中心,超过10万名患者接受了外显子组测序,结果是通过人工智能聊天机器人(ClearGenetics)提供的,它受到大多数患者的欢迎,减少了对遗传顾问的需求。这证明了卫生系统如何能够利用人工智能工具提供复杂的信息,而不必依赖于训练有素的人员的扩充。
人工智能和病人
2017年底,一种智能手表算法通过了FDA的检测,能检测出心房纤颤,随后在2018年,苹果公司的算法获得了FDA的批准,将该算法用于AppleWatch系列4。光学体积学描述和加速计传感器能够获知用户在休息和体育活动时的心率,当偏离参考范围,就会触发警报,这种算法的广泛使用,尤其是在低风险的年轻人群中——他们戴着苹果手表——将导致大量的假阳性心房纤颤诊断,并引发不必要的医疗检查。相比之下,智能手表上的深度学习,可以准确地检测血液中是否有高钾,可能对肾病患者特别有用。通过智能手表算法读取血钾水平(表3)的概念,体现了一种算法的前景,这种算法能够提供在没有该技术的情况下无法获得或识别的信息。
人工智能和数据分析
利用人工智能,Christiansen等人开发了硅标记,用计算机直接识别未被标记的图像中细胞的特征。与常规的荧光染色显微成像不同,这种机器学习算法能预测荧光标签,从而引入了“无图像”显微技术,不再像荧光染色那样会伤害和杀死细胞,也不需要复杂的准备工作。此后不久,Ota等人报道了另一种无图像流人工智能分析方法,他们称之为“幽灵细胞检测”,以准确识别罕见细胞。机器学习的这种应用解决了一个棘手的问题,即通过快速、高通量和精确的细胞形态分类来识别和分离稀有细胞,而不需要使用生物标记。除此之外,计算机视觉技术已经使单细胞内40-对蛋白质和细胞器的高通量评估成为可能。
机器和深度学习面临的另一个挑战是对基因组和其他组学生物数据集的分析。开源代码的算法已被开发用于分类或分析全基因组序列的致病性变异、体细胞癌突变、基因-基因相互作用、RNA测序数据、甲基化、蛋白质结构和蛋白质-蛋白质相互作用的预测、微生物组和单细胞。虽然这些报告通常只针对单一组学,但现在正在开发集成数据集的多组算法。CRISPR引导RNA活性和脱靶活性的算法预测也促进了基因组编辑的应用。
值得注意的是,通过将转移学习算法应用于多区域肿瘤测序数据,以及通过微流体分离以单细胞分辨率分析癌细胞的机器视觉,人工智能的使用增强了对癌症演变的理解。这两种新的方法可能最终有助于患者的风险分层和指导治疗。
可以说,生物神经科学影响着人工智能,反之亦然。果蝇中的几个例子是值得注意的。Robie等人拍摄了4万只果蝇的视频,并使用机器学习和机器视觉来绘制表型与基因表达和神经解剖学的关系图。绘制了活动、雌性攻击性,以及其他很多特征的全脑图图谱。在另一项研究中,使用最近邻算法来了解苍蝇是如何感知气味的,也就是它们的嗅觉算法
人工智能带来的最令人印象深刻的进步之一,是在理解人类大脑的网格细胞方面——网格细胞能够感知人体运动的速度和方向,例如机体在空间中的位置。神经形态计算,或者说是通过对大脑进行逆向工程来制造计算机芯片,不仅能提高计算效率,还能帮助研究人员理解大脑回路,构建脑机接口。机器视觉用迁移学习算法追踪人类和动物的行为也是另一个例子。
药物发现正在因多层面地使用人工智能而在被改进,包括用先进的自然语言处理技术搜索生物医学文献、用数据挖掘得到数以百万计的分子结构、设计和制造新分子、预测脱靶效果和毒性、预测试验药物的剂量,开发大规模细胞检测。通过机器学习预测毒性来减少临床前动物试验是有希望的。人工智能密码学已被用于整合大型制药公司的数据集,并发现以前未知的药物相互作用。剑桥大学和曼彻斯特大学的机器人“伊芙”(eve)的故事,以及它如何自主发现了一种牙膏成分中含有的抗疟药物,激发了人们利用人工智能加速这一过程的兴趣。
限制和挑战
尽管人工智能技术前景光明,但也存在巨大的障碍和陷阱。人工智能的炒作程度已经远远超过了人工智能的科学水平,特别是当它涉及到病人的护理时。最近的一个例子是IBMWatsonHealth的癌症AI算法(在肿瘤学中称为Watson)。该算法被全球数百家医院用于给癌症患者推荐治疗方法,但它只是基于少量的非真实病例诞生的,来自肿瘤学家输入的真实数据非常有限。许多Watson所建议的治疗被证明是错误的,比如建议给严重出血的病人使用贝伐珠单抗,而这是该药明确的禁忌症,已被标为“黑框”警告。这个例子还凸显了一个有缺陷的算法可能对病人造成重大伤害,从而导致医疗事故。机器算法诱发医源性风险的潜力是巨大的。因此,当人工智能算法在临床实践中得到应用时,就需要进行系统的调试、审核、大量的模拟、验证和前瞻性的审查。
不平等是当今医疗保健中最重要的问题之一,尤其是在美国,它没有为所有公民提供医疗保障。由于社会经济地位低是早亡的主要风险因素,在“富人”而不是“穷人”中过多地使用人工智能可能会扩大目前在健康结局方面的差距。与这一问题交织在一起的是,由于数据集中没有包含少数群体,许多算法中都存在固有的偏见,加剧了本就存在的不公平现象。例如,皮肤科诊断黑色素瘤的算法,由于缺乏某些肤色和基因组数据,以至很难代表少数族裔。
人工智能在医学领域的未来,一个压倒一切的问题在于如何保障数据的隐私和安全。考虑到黑客攻击和数据泄露的普遍问题,人们不太愿意使用可能泄露病人病史细节的算法。此外,还存在蓄意入侵算法以大规模伤害人类的风险,比如糖尿病患者服用过量的胰岛素或刺激除颤器工作。个人身份越来越有可能通过面部识别或基因组序列信息来确定,这进一步妨碍了隐私保护。需要建立个人健康数据所有权、使用高度安全的数据平台,以应对若隐若现的安全问题,否则这些问题将阻碍或毁掉人工智能在医学领域发展的机会。
未来的考虑
将人工智能引入医学的过程才刚刚开始,这个领域的前景广阔,但数据和证据相对较少。错误算法的风险比单个医患交互的风险要高得多,但是好的算法回报是巨大的——减少错误、低效和成本。因此,人工智能在医学上无一例外需要严格的研究,在同行评议的期刊上发表结果,在真实世界中进行临床验证,然后才能在病人诊治中推出和实施(图4)。
如今,人们普遍认为医生将被机器取代,这一观点说穿了与自动驾驶汽车模型类似。大多数人会同意,自动驾驶汽车代表了人工智能迄今为止的最高技术成就,但“自动驾驶”这个词有误导性。汽车工程师协会(SAE)定义了5个级别的自主权,5级表示汽车完全自主控制,没有任何可能被人类控制(图5)。现在认识到,这种充分的自治可能永远不会实现。出于同样的原因,医学不太可能超过3级,3级是一种有条件的自动化,人类确实需要对图像和数据的算法解释进行监督。人类健康太宝贵了,把它交给机器,除了那些风险极小的日常事务,似乎特别牵强。
令人兴奋的是,软件已经能够快速、准确、低成本地消化和处理大量数据,而机器能够看到并做一些人类不可能做的事情。这种能力最终将为高性能医学奠定基础,这是真正的数据驱动,减轻我们对人力资源的依赖。