英伟达腾讯商汤……借助隐私计算在医疗AI做了哪些探索？|腾讯learning_在线学习

2021年6月10日，中华人民共和国第十三届全国人民代表大会常务委员会第二十九次会议正式通过并公布《数据安全法》，并将于2021年9月1日施行。它将与已经颁布的《网络安全法》及正在审议中的《个人信息保护法》一起代表我国对数据隐私及安全的重视，共同构建起我国数字时代有关信息的法律体系。

简要回顾一下联邦学习是什么？

简单来说，联邦学习是一种加密的分布式机器学习框架，目标是在保证数据隐私安全及合法合规的基础上对AI模型进行训练的手段。这一技术最早由谷歌提出，并在GoogleI/O2019大会上首次展示了实际落地的应用场景。

谷歌当时展示的G-Board输入法使用了这种新的模型训练方式，将整个模型学习过程分发到用户手机，在本地完成分配的模型训练任务，随后将训练完成的数据上传汇总帮助模型训练。因为训练过程在本地完成，且上传数据只涉及模型训练所需的必要数据，从而防止了数据泄露。

此外，完全依赖开放数据库训练的模型，很有可能缺乏真正的临床价值。2021年，剑桥大学对公开发布的有关医疗AI的2212篇论文进行筛选，从中选出62篇可以达到研究人员设定的较高的入选标准的论文。然而，研究人员最终发现所有62篇实际上都没有潜在的临床应用价值。

剑桥大学的研究人员提出了三个观点：第一，公共数据集可能导致严重的偏差风险，谨慎使用。第二，为了使模型适用于不同的群体和独立的外部数据集，训练数据应该保持多样性和适当的规模。第三，除了更高质量的数据集外，还需要可复现和外部验证的证明，这样才能增加模型被推进并整合到未来临床试验中的可能性。

然而，医疗数据包含了大量患者隐私。医疗机构或者患者绝对不会因为模型训练愿意承担隐私泄露的风险。联邦学习则可以让多个机构利用自己的数据进行多次迭代训练模型，随后将训练完成的模型上传共享。这个过程并不会涉及到敏感的临床数据或病人隐私，从而解决了大众的担忧。

假设三家医院决定联合起来建立一个中心深度神经网络用于帮助自动分析脑肿瘤图像，并选择使用客户机-服务器的联邦学习。在整个架构中，中心服务器将维护全局深度神经网络。每个参与的医院将获得一个这个神经网络模型的副本，以便使用自己的数据进行训练。

一旦在本地对模型进行了几次迭代训练，参与者就会将模型的更新版本发送回中心服务器。这个过程只发送训练完成的模型及其参数，而不会像以往的方式发送病例数据。同时，传输数据经过特殊加密，具有很好的保护效果。

在收到各地上传的更新模型后，服务器将汇总各地上传的、更新后的局部模型，并对全局模型进行更新。随后，服务器会与参与机构共享更新后的模型，以便它们能够继续进行本地训练。

不难看出，在整个过程中，共享模型接触到的数据范围比任何单个组织内部拥有的数据范围都要大得多，训练也更为有效。与此同时，因为只需要传输模型数据，其对网络传输带宽的要求也降低了很多。

此外，全局模型的训练并不依赖于特定的数据。因此，如果其中一家医院离开模型训练团队也不会停止模型的训练。同样，一家新医院可以随时选择加入该计划以加速模型训练。

联邦学习使几个组织能够在模型开发上进行协作，但不需要彼此共享敏感的临床数据及病人隐私。业界希望这种新的方式能够解决目前AI遇到的数据困境。相比传统的模式，联邦学习还可以鼓励不同的机构合作创建一个可以使所有人受益的模型。

两年来，联邦学习在医疗上做了哪些探索？

自推出以来，业界就高度重视联邦学习，并发布了数个开源框架。这些开源框架分别由谷歌（TensorflowFederated）、OpenMined（Pysyft）、百度（PaddleFL）和微众银行（Fate）等牵头。与此同时，英伟达Clara和微众银行也推出了联邦学习的商业化产品。目前，联邦学习已经在各行各业开花结果，医疗应用也是其中之一。

医疗影像上的应用

2019年10月，英伟达（NVIDIA）将联邦学习技术引入了旗下专门针对医疗影像领域的Clara平台，并与英国伦敦国王学院合作发布了用于医学影像分析且具有隐私保护能力的联邦学习系统。

通过支持联邦学习的Clara平台，研究人员可以极大地简化这一系统的部署难度，并能安全方便地对联邦学习中心服务器和协作客户端进行配置，提供启动联邦学习项目所需的一切，包括应用程序容器和初始AI模型。

各家医院将利用这些数据，在本地EGX服务器上训练模型。本地训练结果通过安全链接共享回联邦学习中心服务器，并由中心服务器对全局模型进行更新。随后，更新后的模型会与各医院服务器同步，以便各医院对新模型进行进一步训练。

全球领先的医疗健康机构——包括美国放射学院（简称ACR，AmericanCollegeofRadiology）、麻省总医院（MassachusettsGeneralHospital）和加州大学洛杉矶分校医疗中心（UCLAMedicalCenter）——都在抢先采用该技术，致力于为自己的医生、患者和医疗设施开发个性化的AI应用，他们的医疗数据、应用程序和设备都在增加，同时患者隐私必须得到保护。

ACR在其国家医疗成像平台AI-LAB中引入了NVIDIAClara联邦学习，从而帮助ACR的38000名医疗成像会员安全地构建、共享、调整并验证AI模型。

2020年9月，由英伟达、ACR、巴西DASA（拉丁美洲最大的第三方医学实验室）、美国麻省总医院、妙佑医疗集团、斯坦福大学、麻省理工学院上线了合作项目，通过联邦学习在真实世界协作环境中训练医疗影像AI模型，用于乳腺BI-RADS分类辅助诊断。

放射科医生在分析乳房X光结果时，会一边尝试寻找肿瘤一边评估乳房组织密度。所谓乳房组织密度是指女性乳房X光检查中出现的纤维和乳腺组织量度。根据影像特征，被分为四大类型：脂肪类、散在纤维腺体类、不均匀致密类和极度致密类。

医生进行乳房组织密度分类的原因很简单——乳房密度高的女性患乳腺癌的风险要高4-5倍。根据统计，这类人群在美国40-74岁女性中占大约一半。因此，为医生提供高质量的乳房密度分类辅助分类工具可以更好地评估患者的癌症风险。

尽管所有参与项目机构共享的数据集（乳腺学系统、类分布和数据集大小）存在巨大差异，但AI模型训练依然获得成功，并展示了较好的效果。比较而言，使用联邦学习训练的模型比只接受各机构本地数据培训的模型平均性能好6.3%，模型的可概括性相对提高了45.8%。

新冠肺炎患者氧气用量预测

联邦学习在新冠病毒肆虐全球之际也做出了自己的贡献——英伟达和美国联盟医疗体系（麻省总医院和布列根和妇女医院共建）的研究人员开发了一个AI模型。该模型可以通过胸部X光片、患者生命体征和化验结果，来预测急诊室内的新冠肺炎患者是否需要在初步检查后的几小时或几天中吸氧，进而预测急救室需要的氧气量，及判断患者是否需要转入ICU。

为了开发一种可靠的AI模型，并将其推广到尽可能多的医院，英伟达和美国联盟医疗体系启动了名为EXAM（EMRCXRAIModel）的计划。这项计划与来自全球的20家医院合作，是目前规模最大、最多样化的联邦学习计划之一。

这些医院分布在北美洲、南美洲、亚洲和欧洲，数据涵盖了不同人种患者的数据集。每家医院都使用NVIDIAClara来训练其本地模型并参与EXAM。在整个过程中，各家机构无需将患者的胸部X光片和其他保密信息统一汇总，而是使用安全的内部服务器来存储其数据。

全局深度神经网络模型则托管在亚马逊AWS独立服务器上，每家参与合作的医院都可获得一份副本用于在自有数据集上进行训练。

基于模型对各种分布式数据进行训练，最终项目开发完成AUC值为0.94（目标为1.0）的模型仅仅耗时两周，其预测住院病人所需氧气量的能力非常出色。由于吸氧对于新冠肺炎患者来说至关重要，这一技术平台已被集成至ClaraNGC之中，将挽救不少生命。

可穿戴医疗健康设备

在医疗健康领域有着重要用途的可穿戴设备也在引入联邦学习。可穿戴设备可以准确记录用户的日常活动及体征信息，对于部分疾病的预防和早筛极有价值。同时，可穿戴设备在心理健康领域、用于患者或老人的跌倒检测以及健身锻炼监控上也有应用价值。全球可穿戴医疗健康设备在近年得到了突破，出货量屡创新高，积累了海量的数据。

传统的方法对于可穿戴设备来说是个巨大的难点（图片来自IEEEIntelligentSystems,Volume:35Issue:4：FedHealth:AFederatedTransferLearningFrameworkforWearableHealthcare）

其次，传统的模型训练方法是通用的，缺乏个性化和针对性。然而，不同的用户其实有着不同的体征特点，基于通用模型的可穿戴设备并不能最好地匹配他们的需求。

2020年，中科院泛在计算系统研究中心、中国科学院大学、深圳鹏城实验室和微软亚洲研究院联合提出了FedHealth架构，也是首个针对可穿戴医疗健康设备的联邦迁移学习框架。

联邦学习可以有效地将分散的可穿戴设备数据予以利用（图片来自IEEEIntelligentSystems,Volume:35Issue:4：FedHealth:AFederatedTransferLearningFrameworkforWearableHealthcare）

通过联邦学习和同态加密，FedHealth得以在保证用户数据隐私和安全的前提下为训练强劲模型提供源源不断的数据。在全局模型完成训练后，它又可以通过引入迁移学习来实现个性化需求。此外，这一可以增量升级的框架还可以进一步扩展并部署到多种医疗健康应用上以进一步在真实世界中增强学习能力。

通过对30位实验参与者采集的总计10299组数据进行的实验，FedHealth对于可穿戴设备行为识别的准确率有一定提升。相比未采用联邦学习方式的深度学习，FedHealth训练模型的准确率提升了5.3%。

脑卒中预测

作为公认最早研究“联邦学习”的国际人工智能专家之一，微众银行首席人工智能官杨强教授推动了微众银行AI团队成为国内联邦学习技术的引领者，并将其应用于实际业务。目前，微众银行已经在金融、医疗等行业领域落地应用联邦学习。

2018年12月，微众银行更是发起了关于《联邦学习架构和应用规范》的标准立项，并获得了IEEE标准委员会的立项批准。来自国内外的多位知名学者和技术专家纷纷加入标准工作组，参与到联邦学习IEEE标准的建设中。

2019年，腾讯天衍实验室和微众银行在医疗大数据、医学影像辅助诊断等领域展开合作，并联合开发了基于医疗联邦学习框架的“脑卒中发病风险预测模型”。模型利用NLP技术对电子病历进行处理，通过分析识别与脑卒中高度关联的症状来预测病人脑卒中发病风险。

我国中部某市五家医院（其中三家为该市头部三甲医院）参与了研究，并利用各自的电子病历数据对模型进行了训练。结果显示，利用联邦学习训练的模型预测准确率高达80%。同时，大型三甲医院数据资源可帮助医疗服务匮乏病例少小型医院在模型预测指标上提升10-20%。

2020年8月，腾讯医疗健康与微众银行成立联合实验室，结合腾讯天衍实验室在医疗影像、医疗机器学习与自然语言处理的技术积累，以及微众银行AI团队在联邦学习上的领先技术，联合实验室将进一步攻坚联邦学习在医疗领域的应用。

药物发现

基于AI在药物发现上的巨大潜力，联邦学习也已经在这一场景有所进展。2020年12月，同济大学生物信息系与微众银行合作，通过联邦学习模拟多个制药机构之间的药物协同开发，助力制药机构在保障自身药物数据隐私安全的前提下进行协同药物发现。

研究首次尝试在药物小分子领域探索使用联邦学习范式进行药物协同开发的可行性，结合微众银行的联邦学习开源平台FATE，开发了基于联邦学习的协作药物发现平台FL-QSAR。

研究团队通过对于包含了15个药靶的QSAR基准数据来构建深度学习模型，进行QSAR建模以及多制药机构环境下的协同药物开发模拟。研究结果显示了将联邦学习用于药物发现具有两方面的优势。

首先，多个制药机构通过FL-QSAR进行协同QSAR建模，效果显著优于单机构仅使用其私有数据本地QSAR建模。其次，通过特定的模型优化，FL-QSAR可以在保护药物小分子结构隐私的前提条件下，获得与直接整合多机构小分子数据进行QSAR建模相同或者类似的模型预测效果。

这是一种有效的药物协同发现的解决方案，打破了传统QSAR建模时不同制药机构之间的数据无法直接共享的壁垒，有助于在隐私保护的前提条件下进行协同药物发现，并得到了国家专项项目基金资助。

隐私计算的未来——更优的联邦学习及去中心化的蜂群计算

该研究通过将位于多个彼此分离机构的分布式异步鉴别器和一个中心生成器组成对抗网络，让中心生成器在不接触原始隐私数据的情况下，也能进行合成训练，从而能够生成与各机构原始数据相近似的合成数据样本，供下游任务使用。

在此基础上，这一方案还采用了2种损失函数，使得中心生成器具备一定的终身学习能力，可以在动态变化（比如学习过程中有新的机构加入或某些原有机构退出的情况）的环境中持续训练模型。

经试验模拟，这套学习方法能够从不同的机构中渐进地学习到同类数据甚至不同类数据的近似分布，并在医学图像分割任务中，取得了理想效果。

与传统的联邦学习相比，商汤科技的方案可以有效减少中心与各机构之间的通信数据量，仅需传输合成图像数据和反馈误差，而非整个模型的所有参数数据，而且各机构之间无需交换任何数据或参数，可显著降低医疗机构部署联邦学习的成本，加快研究效率和AI模型的生产速度。

除了对联邦学习进行改进，业界也在开发新的解决方案。不久前的2021年5月，德国研究人员在Nature上发布了论文，提出了一种去中心化的机器学习方法SwarmLearning（蜂群学习），将边缘计算和基于区块链的对等网络结合，用于不同医疗机构之间医疗数据的整合。

联邦学习虽然解决了数据隐私，但是全局模型及参数调节仍然由特定机构的中心服务器处理，必然造成了权力集中。此外，这种星形结构容错性较低。相比之下，蜂群学习不再需要中心服务器交换数据或全局建模，允许参数合并，从而实现所有成员权利平等，并通过去中心化很好地保护机器学习模型免受攻击。

在本地学习（a）中，数据和计算是分别在不同的机构且彼此隔离的情况下实现。在中心学习（b）中，来自不同机构的数据和参数被集中到云上实现模型训练。在联邦学习（c）中，数据和训练仍然位于本地，但全局模型的参数设置和模型共享在中心实现。在蜂群学习（d）中，数据和参数去中心化，且彼此互联，不需要中心。（图片来自Nature：SwarmLearningfordecentralizedandconfidentialclinicalmachinelearning）

这个蜂群学习的研究选择了结核病、新冠肺炎、白血病和肺部病变这四种异质性疾病来说明使用蜂群学习基于分布式数据开发疾病分类系统的可行性。

研究尝试了利用蜂群学习从外周血单核细胞数据中预测白血病，从血液转录组数据中识别结核病患者或肺部病变患者，以及识别和检测新冠肺炎患者。训练所需的数据集包括来自127项临床研究中的16400多个血液转录组，以及95000多张胸部X光图像。这些数据集的病例和对照分布并不均匀，存在大量偏差。

结果表明经过蜂群学习训练的分类模型性能优于基于本地数据训练的分类模型。此外，蜂群学习还引入了区块链技术，结合了去中心化的硬件基础设施，防止数据被篡改；同时，成员自主权大幅提升，可以安全加入、动态选举领导者乃至合并模型参数。

总的来说，研究认为蜂群学习有可能比联邦学习更能改变当前的格局，去中心化的数据模型有可能成为处理、存储、管理和分析任何种类的大型医疗数据集的首选。

写在A最后

全球对数据隐私及安全的重视程度日益增加，在医疗领域更是如此。联邦学习及蜂群学习所代表的隐私计算因其可保证数据隐私且具有更好的性能等特性，将在未来决定医疗AI是否能够进一步向前发展。不少研究团队都在从事相应的探索，并将其应用到具体的医疗应用场景中。

尽管如此，目前真正将联邦学习实施落地的具体医疗场景仍然屈指可数。这一先进架构仍然面临一些具体的问题，包括医疗机构数据质量普遍较差、模型训练缺乏医生参与使其难以说服医生使用、缺乏足够激励措施吸引数据方参与、具有个性化的模型训练难度较大以及应对复杂场景的模型精度不足等。

参考资料

MICCAIWorkshoponDomainAdaptationandRepresentationTransfer&MICCAIWorkshoponDistributedandCollaborativeLearning：FederatedLearningforBreastDensityClassification:AReal-WorldImplementation

MedicalImageAnalysis,Volume70,May2021,101992：Federatedsemi-supervisedlearningforCOVIDregionsegmentationinchestCTusingmulti-nationaldatafromChina,Italy,Japan

THE END

英伟达腾讯商汤……借助隐私计算在医疗AI做了哪些探索？

2024AICon聚焦RAG创新实践，腾讯云获得三大AI奖项作业帮向量知识库

腾讯学院配备Q—learning学习系统

万字长文梳理基于LLM的TexttoSQL发展进程

“高屋建瓴AI公开课”第11期：DecisionMakingandReinforcementLearning

腾讯开心鼠英语APP下载腾讯开心鼠英语安卓版v4.17.0.11下载

腾讯开心鼠英语官方版下载腾讯开心鼠英语官方版手机下载

腾讯学院院长马永武：HR要像产品经理一样腾讯学院院长,马永武遇见大咖

英伟达腾讯商汤……借助隐私计算在医疗AI做了哪些探索？