European Radiolog:人工智能在大语言模型辅助脑MRI鉴别诊断中的协作应用

2025-04-03 shaosai MedSci原创

最近的研究表明,大语言模型(LLMs)在根据病例呈现来进行放射学鉴别诊断方面具有日益显现的潜力。这些研究将大语言模型给出的诊断建议与专家评估或已确诊的诊断结果进行了比较。

放射学鉴别诊断在临床医疗中起着至关重要的作用,对诊断和治疗决策有着深远的影响。要从影像检查结果中准确确定相关的鉴别诊断,需要具备高度专业的解剖学和病理生理学知识,同时还要熟练掌握视觉图像模式的识别能力,并能综合分析全面的临床信息。

最近的研究表明,大语言模型(LLMs)在根据病例呈现来进行放射学鉴别诊断方面具有日益显现的潜力。这些研究将大语言模型给出的诊断建议与专家评估或已确诊的诊断结果进行了比较。在最近的一项研究中,在 GPT-4 辅助下的放射科医生表现出诊断性能略有提升,且信心水平显著提高,但有 7.4% 的回复中存在 “幻觉”(即生成不符合事实的信息)现象。然而,在这种情况下,人类用户与大语言模型系统之间复杂的互动关系仍有待更详细地探究。

以往的文献揭示了人机交互在放射学诊断性能方面的关键影响。一项使用基于人工智能的乳腺钼靶图像分类系统的研究表明,无论是经验不足的还是经验丰富的阅片者,都容易受到自动化偏差的影响,自动化偏差是指人类用户倾向于遵循自动化决策系统给出的错误建议。同样,有研究显示,错误的人工智能结果会对放射科医生基于胸部 X 光片检测肺癌的表现产生负面影响。另一项研究则强调了在人工智能辅助膝关节磁共振成像(MRI)阅片过程中,建立有效的人机协作协议的重要性。类似地,人机协作的各个要素可能会影响大语言模型辅助下的鉴别诊断结果。在现实临床实践中,放射科医生或放射科住院医师很可能会将大语言模型用作支持诊断推理的辅助工具,而不是完全依赖其进行自主鉴别诊断。在这种情况下,人类医学专业人员在整合现有临床和影像信息、提出准确的问题、批判性地审查大语言模型的回复以及开展进一步研究以最终得出结论等方面,都起着关键作用。特别是考虑到大语言模型系统存在众所周知的生成事实性错误信息(即所谓的 “幻觉”)的倾向,全面评估用户与这些系统实际的交互方式就显得至关重要。


最近,发表在European Radiology 上的一篇文章探究了人类与大语言模型(LLM)协作对脑部磁共振成像(MRI)鉴别诊断的准确性和效率的影响。

这是一项回顾性研究,将 40 例诊断具有挑战性但已明确诊断结果的脑部 MRI 病例随机分为两组,每组 20 例。六名平均阅脑部 MRI 经验为 6.3 个月的放射科住院医师,分别采用传统互联网搜索(传统方式组)和基于大语言模型的搜索引擎及混合聊天机器人(大语言模型辅助组)来评估其中一组病例。采用交叉设计,以确保每种工作流程对每个病例的检查频率相同。对于每个病例,要求阅片者确定最有可能的三种鉴别诊断。由一组放射科医生对大语言模型给出的回复进行分析。通过观察和参与者反馈,总结出人类与大语言模型交互过程中的优势和挑战。

大语言模型辅助的脑部 MRI 鉴别诊断准确性更高(正确诊断数:大语言模型辅助组为 70/114,占比 61.4%;传统方式组为 53/114,占比 46.5%,卡方检验,p = 0.033)。在诊断时间和信心水平方面未观察到差异。对大语言模型回复的分析显示,在 82.1% 的病例(60/73)中,大语言模型的正确建议能够转化为阅片者的正确诊断。阅片者对病例的不准确描述(占病例的 9.2%)、大语言模型的 “幻觉” 现象(占病例的 11.5%)以及大语言模型回复缺乏足够的背景信息等,被确定为人类与大语言模型交互过程中存在的挑战。


表 与会者对LLM辅助鉴别诊断的评价

本项研究表明,人类与大语言模型的协作有潜力改善脑部 MRI 的鉴别诊断。然而,为确保其有效应用和获得用户认可,仍需解决一些挑战。

原文出处:

Su Hwan Kim,Jonas Wihl,Severin Schramm,et al.Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.DOI:10.1007/s00330-025-11484-6

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2258904, encodeId=8b4b225890420, content=<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=39, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Thu Apr 03 10:27:20 CST 2025, time=2025-04-03, status=1, ipAttribution=)]
    2025-04-03 梅斯管理员

相关资讯

European Radiology:人工智能前列腺癌检测的多中心、多扫描仪验证研究

基于深度学习的计算机辅助检测(DL - CAD)软件在提高临床显著性 PCa(csPCa,通常定义为分级组(GG)≥2)检测准确性方面受到越来越多的关注。

Lancet子刊:人工智能辅助系统在食管浅表性鳞状细胞癌及癌前病变内镜诊断中的作用

食管鳞状细胞癌(squamous cell carcinoma, SCC)及其癌前病变是全球范围内常见的恶性疾病之一。AI辅助系统在减少浅表性食管鳞状细胞癌及癌前病变的漏诊率方面表现出一定的潜力。

中医大师——中医AI智能体

中医大师——中医AI智能体

AI取代医生?刘军教授揭秘:智能医疗的利与弊

【医悦汇】特别邀请清华大学统计学研究中心荣誉主任刘军教授做客对话大咖栏目,就人工智能在医疗领域的应用与发展进行了深入探讨。

【论肿道麻】人工智能在癌症研究中的实用指南

本文介绍了人工智能在癌症研究中的关键概念和工具,为非计算背景的癌症研究人员提供了一份实用指南,帮助我们理解和应用AI工具。

European Radiology:基于人工智能的椎体和心血管成像标志物的自动测量可重复性

人工智能(AI)有望借胸部 CT 自动处理技术,减轻放射科医生负担。肺结节自动检测已有研究并用于临床。

Thorax:人工智能辅助肺功能测试显著提升间质性肺病早期诊断准确性

基于AI的决策支持在肺功能检查解读方面可提高间质性肺病诊断的准确性和早期发现率。

European Radiology:人工智能(AI)在放射学儿科骨折评估中的应用

人工智能(AI)工具可以在难以迅速获得专业意见的情况下作为辅助诊断手段,尤其是考虑到目前对儿科放射科医生的需求不断增加,但专业人员却存在短缺的情况。

JNS:肺癌患者术前健康教育中的情绪管理,AI技术在临床护理中的应用与实践

本研究创新性地将AI情绪识别软件用于肺癌患者健康教育研究,为临床护理提供理论依据。肺癌患者术前健康教育与情绪显著相关,基于FaceReader的健康教育方案可能成为未来的研究方向。

2025年世界帕金森病日:人工智能如何助力帕金森病管理?

帕金森病成中老年人健康威胁,传统诊断有局限。AI 在其管理中应用多,可用于步态、表情等分析及诊断、预测、远程管理等,为诊疗带来新方案。