通过了美国医师考试的ChatGPT,会抢医生的饭碗吗?研究医学

ChatGPT实际上并不懂任何东西。它通过分析大量数据库、资料等,就任一主题构建听起来合理的句子。它可能异常聪明,也可能得出最荒谬的结论。

撰文|燕小六

啥都能聊的人工智能ChatGPT又双叒叕封神了。

这一次,它挑战的是“史上最难标准化考试”:美国执业医师资格考试(USMLE)。根据《科学公共图书馆·数字健康》杂志近日刊发的研究,未接受过任何医学训练的ChatGPT“裸考”参加USMLE,准确率达到或接近及格所需的60%。

和ChatGPT一样,Flan-PaLM和Med-PaLM也是大型语言模型,它俩的核心能力都是理解和生成文本。简而言之,就是“懂人话”“说人话”。

更有乐观者展望未来,认为ChatGPT给患者看病指日可待。新西兰惠灵顿维多利亚大学软件工程高级讲师西蒙·麦卡勒姆(SimonMcCallum)表示,随着技术不断发展,“我们可能很快会从AI医生处,得到医学方面的建议”。

图源:锐景

考试Soeasy,医学要变天?

美国医疗保健初创企业安西布尔健康公司(AnsibleHealth)是把ChatGPT送上医学“神坛”的操刀者。这是一家聚焦慢性肺病管理的科技公司,提供在线诊疗、远程康复、生活方式干预等服务。

肺疾病医生维克多·曾(VictorTseng)是该司的医学主任。ChatGPT上线后,像亿万网友一样,他和同事们问了很多“有意思但没意义”的问题,想挑战AI的能力极限。他说,“我们输入很多信息,它能快速、准确地诊断出谁在装病。我们觉得,或许能让ChatGPT执行、处理一些复杂的医学和临床信息,比如协调患者治疗、护理等。但在此之前,我们先要证明,它确实迈进医学门槛,能干这个。”

维克多·曾等人选定的“门槛”就是USMLE。这是在美国获得行医资格的基础。考试结果只有“通过”和“不通过”两种。

考试分3个阶段,旨在评估参考者的基础医学科学、临床医学知识等掌握情况,以及评估临床知识在患者管理中的具体应用。每阶段考试都有计算机答题部分,第二阶段还会考标准化病人问诊。美国医学生大多在毕业后第一年当住院医师时,完成全部考试。

研究小组从2022年6月的USMLE真题库中,选出350道纯文字题。题型包括病因判断等选择题,根据提示、完成诊断等问答题。由于ChatGPT不会看图表,研究未纳入基于图像的问题。

3位USMLE委员会认证执业医师获邀为ChatGPT打分。结果显示,去除模糊不清的回答后,ChatGPT在3个阶段的得分率在52.4%-75%。

在“解释对/错”方面,ChatGPT展示出94.6%的响应一致性。在88.9%的问答题中,ChatGPT给出至少一个重要见解,其中有一些新鲜、有临床获益的解读。这表明它真的在“读题”“思考”,答案不是瞎蒙的。

“这项以难度而闻名的考试,通常需要300-400小时专业学习才能参加,涵盖从基础科学到生物伦理学的所有知识。”研究团队称,ChatGPT给出的结果令人信服,准确率较高。

也许很多普通吃瓜群众惊叹“医学要变天”,但医疗界的资深人士对ChatGPT的表现淡定很多。

其实,2022年,语言模型类AI进展迅猛,PubMedGPT、DRAGON、Galactica……一个个都考了USMLE。当年年末,谷歌研究院和DeepMind团队联合研究更是考出了“史上AI最高分”。该团队指出,“回答医疗问题”极具挑战性。为了提供高质量的答案,AI需要理解医学背景、掌握适当的医学知识,并能对专家信息进行推理。

研究小组微调其语言模型、丰富数据集,由此生成Flan-PaLM模型。它拥有一组强大的医学问题问答数据集,涵盖医学考试、医学研究、消费者医学问题等多方面。其中包括USMLE真题库MedQA,和蕴涵海量健康话题搜索及结果的数据集HealthSearchQA。研究小组用真题库测试Flan-PaLM,发现其准确率达67.6%,比早先的AI模型高出17%。

研究小组通过调整问题指令,打造了另一个针对消费者医疗问题的Med-PaLM模型,测试发现,Med-PaLM在科学常识、理解、检索和推理等任务挑战中,水平直逼甚至战胜人类医生,且明显优于Flan-PaLM。

辅助医生,而不是替代

维克多·曾等人的研究刊发次日,USMLE项目回应称,“一点都不惊讶。非常感兴趣ChatGPT错在哪儿了”。该项目还表示,正确使用AI,将对构建考试方式、触动学生学习,产生积极影响。接下来会继续努力、优化USMLE,实现医学教育、医疗实践和技术等共同进步,甚至可能会在USMLE备考中,引入ChatGPT。

“或许有一天,真题就是AI编写的。”USMLE项目副主席阿莱克斯·麦卡博(AlexMechaber)表示,ChatGPT的文本数据中有不少医学知识,AI是最可能选对答案的。但其不足是只能看文字,无法回答图像或声音问题,也不能参加临床技能模拟考试。

该文称,ChatGPT的成功,一方面反映出医学考试过于强调机械记忆,对疾病机理死记硬背,不能充分评估现代医疗实践所需技能。

AlignedAI的联合创始人兼首席研究员斯图尔特·阿姆斯特朗(StuartArmstrong)认为,USMLE对人而言肯定是困难的。但总有一天,在几乎所有的理论考试中,AI都能一骑绝尘。数据库越大、训练越多,其成绩就能进一步提高。2022年诸多语言模型类AI不断刷新USMLE考分记录,就是实证。另一方面,它折射出医学教学方式僵化,易让学生误以为医学问题“非对即错”。

事实上,现代医学以循证医学为基础,包括外部证据,医生个体经验和患者意图等多方面。临床中的“正确选择”含义丰富,既需要医生摒弃偏见、发挥创造力、展开批判性思考,也需要考虑众多现实因素。在这些方面,AI并无优势。

近日,北美华人医师联盟、美国华裔心脏协会采用群聊的形式,组织了一场高血压科普访谈。

该联盟主席、美国心脏病学会专家会员(FACC)高磊称:“ChatGPT的能力不能小视。”

比如,ChatGPT回答:120/80毫米汞柱是“正常血压”,超过140/90毫米汞柱则是高血压。“那么,在这范围之间的血压是正常,还是高呢?”主持人之一、美国华裔心脏协会主席、美国凯撒医疗集团Fremont医学中心心脏科医生胡新歌分析,欧洲仍在使用140/90毫米汞柱诊断标准。但按照美国2017年指南,130/80毫米汞柱是一级高血压,140/90毫米汞柱是二级高血压。这或说明ChatGPT存在困惑,没搞明白这些数值背后的意义。

此外,血压=心输出量×动脉血管阻力,是心内科最重要的公式。高磊、胡新歌都表示,关于血压、用药的问题,多可以用这个公式来解释。ChatGPT对这一公式的回复是“看不懂。”

ChatGPT也有“神回答”。范大立连问几次,血压到130/80毫米汞柱要不要用药。ChatGPT回复称,这一数值属于边缘高血压,不一定要马上用药,可以通过生活方式改善等调节。“这个是有道理的,临床也在这么做。”胡新歌说。

作为一线医生,上海市第十人民医院老年医学科主任彭沪曾就一些常见症状问询过ChatGPT。谈及AI能否取代医生,彭沪表示,医疗AI的发展目标应该是辅助医生,而非代替医生。AI可以帮助医生快速完成一些繁琐的重复性工作,从而提高工作效率、改善工作质量、提升治疗水平、减轻医务人员的工作负担。但最终的判断和决策,仍需要在医生的监督下进行。尤其在强医疗场景中,人工智能的应用还牵涉到伦理、政策、论证等多方面因素。

彭沪畅想的场景,在维克多·曾的日常工作中已经成为现实。他的临床医生同事已开始尝试将ChatGPT作为工作流程的一部分。“我们的医生会以安全的方式输入信息,要求ChatGPT协助完成一些传统、繁重的写作任务,比如向付款人写投诉信,简化放射报告中密集的专业术语,以便患者阅读、理解。遇到一些较难诊断的病例时,我们也会借助ChatGPT进行头脑风暴。”

维克多·曾说,“AI用于医疗的大门已经打开了。”

1.USMLEProgramDiscussesChatGPT.USMLE

2.DoctorChatGPTAI-botalmostpassestheUSMedicalLicensingExam.interestingengineering

3.PerformanceofChatGPTonUSMLE:PotentialforAI-assistedmedicaleducationusinglargelanguagemodels.PLOSDigitHealth.2(2):e0000198.doi.org/10.1371/journal.pdig.0000198

4.ChatGPTCanAlmostPassTheUSMedicalLicensingExam.ScienceAlert

5.AIPassesU.S.MedicalLicensingExam.MedpageToday

6.'EverythingWillBe..':MuskReactsOnChatGPTPassingUSMedicalLicensingExam.RepublicWorld

7.停止对ChatGPT的空洞唱和,不如反思人类社会的诸多设计.澎湃新闻

8.Largelanguagemodelsencodeclinicalknowledge.arXiv.DOI:10.48550/arXiv.2212.13138.

9.PagingDr.AIWhatChatGPTandartificialintelligencecouldmeanforthefutureofmedicine.CNN

THE END
1.科学公共图书馆开放获取期刊学科:医学,工业技术,自然科学综合 数据库类型:全文 出版单位:PLoS 访问地址:https://plos.org/ 科学公共图书馆(The Public Library of Science,PLoS)成立于2000年10月,是一个致力于使世界科技和医学文献成为可免费存取的公共信息资源的非赢利组织。PLoS是一家由众多诺贝尔奖得主和慈善机构支持的非赢利性学术组织,旨https://www.las.ac.cn/front/dataBase/detail?id=5e30b6d7915171f1f6a2819420c1df7f
2.接种疫苗将显著降低手足口病科学与生活 16日发表在美国《科学公共图书馆·医学》杂志上的一项新研究显示,在婴幼儿中大规模实施肠道病毒71型(EV-A71)灭活疫苗免疫接种,将会显著降低手足口病的发病率和总体治疗负担。 这一新研究由中国疾病预防控制中心领导进行。该中心传染病监测预警重点实验室常务副主任余宏杰介绍说,中国医学科学院医学生物学研究https://kjj.ankang.gov.cn/Content-175718.html
3.媒体:悉尼学者研究发现每天坐7个小时以上易早亡他们近日在美国《科学公共图书馆·医学》杂志上发表文章写道,吸烟、酗酒、不健康饮食、缺乏锻炼、每天坐7个小时以上、睡眠经常不足7小时或超过9小时是致人早亡的“六宗罪”。前四种生活习惯以前就公认是早亡风险因素,这项研究则新增久坐和过少或过多睡眠这两种因素。http://world.chinadaily.com.cn/guoji/2015-12/11/content_22689149.htm
4.一座特殊的图书馆打卡北京中国医学科学院图书馆有幸参观了北京协和医院图书馆 这个建在医院里的图书馆 就在协和医院的里面 也就是原来大清多铎王府的旧址里面 整个建筑是美轮美奂 古色古香 这里的医学典籍书刊无声地记录 见证着医学的每一次进步 1665年创刊的 英国皇家学会哲学会刊 1824年创刊的 柳叶刀 https://m.ctrip.com/webapp/you/tripshoot/paipai/detail/detail?articleId=82985827&isHideNavBar=YES&seo=0&twojumpwakeup=0&allianceId=1049189&sid=19855591
5.揭开影响因子的学术画皮②:影响因子是可以操弄的科学湃澎湃新闻二〇〇六年,美国《公共科学图书馆医学杂志》(PLOS Medicine)在题为《影响因子游戏》(The Impact Factor Game)的文章中披露,杂志二〇〇五年首次被SCI收录的时候,他们曾通过邮件、电话、面谈等方式展开说服工作,试图让其时已归属汤森路透旗下的ISI少算分母项,而类似做法在行内已是公开秘密,“编辑们都试图说服汤森路透https://www.thepaper.cn/newsDetail_forward_1766569_1
6.每日热点0721英国科学家对约2.1万英国人开展的最新研究结果显示,每天只喝一小杯葡萄酒都有可能导致患上老年痴呆症或帕金森病。这项迄今规模最大的研究表明,饮酒会抑制一种控制人体对矿物质吸收的激素,从而加剧认知衰退。相关研究发表于美国《科学公共图书馆·医学》杂志。 https://www.sccdc.cn/Article/View?id=20444
7.HomePLOS is a mission-driven open science publisher covering all scientific disciplines with a focus on fundamental and applied research across life, health, sustainability, engineering, and technology. When you choose a PLOS journal you are putting integrity first and supporting an organization committed http://journals.plos.org/
8.查找电子资源科学公共图书馆开放获取期刊(Public Library 详细内容期刊论文医学;工业技术;自然科学综合 日本电子科学与技术信息集成详细内容期刊论文综合;计算机;网络;工业技术;其他 巴西网上科技电子图书馆(Scientific Electron详细内容期刊论文综合 Open Access Library详细内容期刊论文综合 https://www.whlib.cas.cn/ver/nc/service/xinxzy/dzzy/search/
9.chrome扩展程序科学扩展科学知识的最佳网站科学公共图书馆(PLoS)是高质量,高知名度的科学和医学期刊的非盈利性出版商,科学家和医师可以在其中发表其最重要的著作。 由于共享研究成果可以促进进步,因此在开放访问模式下免费向公众公开期刊,而无需收取任何费用。 可以读取,下载,复制,分发和使用这些日记帐(具有知识共享署名许可所指定的出处)。 https://blog.csdn.net/culunyi0802/article/details/108841095
10.家庭医学杂志2018年01期英国牛津大学研究人员发表在新一期美国 《科学公共图书馆·医学》杂志上的一项研究报告说,高血压可能会增加人们罹患被称为二尖瓣关闭不全的常见心脏瓣膜疾病的风险,这意味着一直被认为是衰老导致的这种疾病或许可以预防. 关键词: 解惑"抗体阴性艾滋病" 作者: https://www.360qikan.com/jiatingyixueqk/201801/
11.新疆数字图书馆【有声·推荐】精选获奖书系 | 文津图书奖(第二期)2024-12-13 活动预告 | 快来新疆图书馆逛文创集市吧!2024-12-13 活动预告 UPCOMING EVENTS 查看更多 → 当月活动计划往期活动预告 2024年-12月 日 一 二 三 四 五 六 111月大 2初二 3初三 https://www.xjlib.org/