Nat Commun:覆盖1560种疾病!中科大/阿里巴巴等团队开发综合性生物医学预测和风险评估模型UKB-MDRMF

2025-04-30 测序中国 测序中国 发表于陕西省

中科大等团队提出 UKB - MDRMF 综合框架,能预测评估 1560 种疾病健康风险,介绍了其构建流程及优势,为医疗保健提供新方案。

近日,中国科学技术大学团队、阿里巴巴团队联合美国北卡罗来纳大学团队,通过整合来自英国生物银行的多模态数据,提出了可预测和评估1560种疾病健康风险的综合框架UKB-MDRMF。与单一疾病模型不同,UKB-MDRMF结合了多发病机制,具有更高的预测准确性,在所有疾病类型的风险评估中都表现更好。研究团队利用UKB-MDRMF预测和评估了多种疾病,有效揭示了风险因素和疾病之间的共同和独特联系,为健康和多病机制提供了更广阔的视角。

同时,研究团队简化了从数据输入到模型构建的整个过程,增强了跨各种下游任务使用UKB-MDRMF框架的灵活性和便利性,并开发了一个互动平台(https://luminite.shinyapps.io/ukb-mdrmf/)来展示UKB-MDRMF的详细结果,允许探索疾病预测以及特定风险因素和疾病类别的合并症。

图片

个人的健康受生活方式、环境、遗传学以及医疗卫生服务等因素的影响。目前,已有多项研究对某特定疾病或某一类型疾病进行了大型的生物医学预测或评估研究,这些数据的快速积累为探索疾病机制、危险因素和预后标志物提供了大量资源,但疾病的覆盖范围仍然不足。通过将多维健康信息与各种疾病类型相结合,可以更准确的预测和更深入分析个体的健康状况,并理解不同疾病风险因素以及疾病之间的复杂联系。

基于UK Biobank的数据,研究团队开发了一个全面的标准化流程来构建UKB-MDRMF框架,包括数据预处理、模型构建和应用程序。UKB-MDRMF包括基本信息、生活方式、检测、环境因素、遗传学和影像数据,是一个用于多种疾病联合预测和风险评估的综合性生物医学模型,可对1560种疾病进行个体多疾病预测和健康风险评估。

图片

图:UKB-MDRMF构建流程

1 数据预处理

数据预处理包括分别构建和处理预测因子和反应变量。研究团队将输入数据分为六类,从易到难逐步进行建模和分析,最终获得了1106个输入变量,其中几种表型在预处理过程中产生了多个变量。同时,研究团队还考虑了数据缺失问题,并适当地处理了缺失值,获得了准确和可解释的插补结果。对于反应变量,研究使用了1560个苯丙氨酸氨基转移酶代码来系统地总结疾病。

2 模型构建

UKB-MDRMF的模型构建关注了个体疾病预测和风险评估。对预测因子类型,研究从基本信息变量开始,逐渐结合不同的特征类型,最终包括遗传变量。在疾病预测任务中,研究人员评估了各种方法,包括逻辑回归、随机森林、XGBoost、LightGBM、FCNN。不同疾病预测模型在各数据类别中的结果显示,FCNN模型表现最好,在增加数据后,总体中值AUC超过0.7。传统的非参数机器学习方法在多任务学习中表现中等。随着更多的特征信息用于预测,所有模型的预测精度不断提高。对于罕见病,CATI和FCNN的AUC较高,对于常见疾病,CATI、FCNN和逻辑回归均表现良好。

各种类型疾病的预测准确性揭示了口腔和肠道疾病具有相对较低的AUC值。相比之下,与生殖系统相关的疾病表现出明显较高的预测准确性,妊娠相关疾病的AUC超过0.95,生殖器疾病的AUC超过0.8。

图片

图:跨数据类别、疾病类型和流行水平的疾病预测和生存模型的比较性能。

风险评估过程同样遵循每一类预测因子的逐步增加策略,研究使用了传统的Cox比例风险模型、DeepSurv以及POPDxSurv等高级模型。在四个生存模型中,DeepSurv的表现优于其他模型,其次是CATISurv。相比之下,POPDxSurv的性能相对较差,需要所有六个数据类别作为输入才能获得更好的预测结果。此外,CoxPH模型的准确性随着更多阳性病例的出现而提高,深度学习方法在罕见和常见疾病中的表现一直优于DeepSurv。

对于几乎所有疾病类型,疾病预测和生存模型都随着更多的数据类别而改善。在增加生活方式、检测和影像数据变量后,模型性能显著改善。对于疾病预测任务,生活方式和影像学变量对90.5%和100%疾病类型的显著表现改善有贡献,平均AUC分别增加2.3%和2.4%。相比之下,环境和遗传学变量产生的改善较少。通过增加消化和神经疾病的生活方式变量,模型性能实现了显著改善;对于生殖疾病,仅使用基本信息就获得了高度准确的预测。

图片

图:采用FCNN和DeepSurv的不同疾病类型的模型性能图。

3 模型验证

研究团队对UKB-MDRMF和几种现有方法进行了比较分析,发现UKB-MDRMF利用不同的数据类型,对特定疾病表现出优越的预测性能。

此外,研究通过UKB-MDRMF分析危险因素,评估了各种疾病的特征影响。结果显示,基本信息对妊娠、血管和生殖器疾病最有预测性。生活方式变量对妊娠和皮质神经疾病有意义,而检测变量影响生殖器疾病。环境变量影响上呼吸道疾病,影像变量影响心脏、血液和泌尿系统疾病,遗传学变量对几种疾病的影响相对一致,如心脏和眼睛疾病。同时,某些变量对疾病结果有着总体积极和消极影响。例如“躁郁症或抑郁症”的消失降低了所有疾病的发病率。相反,腰围、体重指数、胆固醇和尿微量白蛋白的增加会促进各种疾病的发生。

为了突出疾病预测和风险评估模型之间重要性的相似性和差异,研究团队比较了表现最好的FCNN和DeepSurv模型的前十个变量。在预测和生存模型的重要性指标中观察到相似性,如影像相关、抑郁相关、脂肪相关和年龄相关变量。

最后,研究团队利用All of Us研究数据对UKB-MDRMF框架进行了验证,强调了该模型的稳健性及其在分析不同人群多病性方面的适应性和潜力。

4 结语

UKB-MDRMF为利用大规模生物医学数据进行分析和建模提供了高效灵活的解决方案,可联合预测和评估数千种疾病。结果表明,UKB-MDRMF超越了单一疾病模型,有效地揭示了多种风险因素和疾病之间以及疾病本身之间的潜在联系,并产生了优越的预测性能。

UKB-MDRMF通过为多种疾病预测、风险评估和多样化应用提供全面的解决方案,代表了该领域的重大进步,有望为医疗保健系统做出重大贡献。多种疾病的联合建模增强了表征多种疾病模式的能力,提供了对疾病如何共存的数据驱动探索,并揭示了大规模生物医学数据集内疾病之间相互联系和影响的潜在机制,为更有针对性和个性化的患者护理方法铺平了道路。

论文原文:

Jiang, Y., Zhao, B., Wang, X. et al. UKB-MDRMF: a multi-disease risk and multimorbidity framework based on UK biobank data. Nat Commun 16, 3767 (2025). https://doi.org/10.1038/s41467-025-58724-3

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2262804, encodeId=90be226280420, content=<a href='/topic/show?id=7d91100901da' target=_blank style='color:#2F92EE;'>#风险评估#</a> <a href='/topic/show?id=d298e07421a' target=_blank style='color:#2F92EE;'>#疾病预测#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=34, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=70742, encryptionId=d298e07421a, topicName=疾病预测), TopicDto(id=100901, encryptionId=7d91100901da, topicName=风险评估)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Tue Apr 29 23:52:25 CST 2025, time=2025-04-29, status=1, ipAttribution=陕西省)]
    2025-04-29 梅斯管理员 来自陕西省

相关资讯

J Cosmet Dermatol:安徽医科大学第一附属医院团队发现:早发性男性雄激素性脱发的危险因素及脂质代谢特征

早发性MAA可能是代谢综合征的一个预测因子。低水平的HDL-C、UA和25(OH)D可能是早发性MAA的危险因素。

医院感染风险评估及COSO-ERM优化管理体系研究

本论文对重庆市某三级甲等医院37个临床科室实施风险评估,明确医院感染重点科室,应用COSO-ERM从四大层面、四大目标和八大要素构建三维视角下的极高风险科室优化管理体系,为医院感染防控提供参考依据。

【WSPH】肺动脉高压的危险分层-当前风险评估策略的局限性与新发展

介绍肺动脉高压多参数风险评估工具,包括推导验证方法、应用及局限性,强调现有工具虽有价值但存在不足,需进一步评估新参数纳入风险分层工具。

经验积累:那些改变我肺结节诊疗理念的经典案例之—— PET低代谢的小圆形实性结节持续存在要高度怀疑肺癌!

本文分享肺实性结节病例,通过影像分析及风险评估建议手术,结果多为恶性,强调此类结节即使边缘光滑随访有进展也应考虑恶性,总结经验为后续类似病例判断提供参考。

IJNS:内外科患者骶骨表皮下水分测量的变化

如果只使用一个异常delta作为触发因素,大约83%的患者会接受额外的压力损伤预防策略。但是,如果采取更保守的方法来应对异常delta,25%-50%的患者可能会接受额外的压力损伤预防策略。

Neurology:非酒精性脂肪性肝病和纤维化与偶发痴呆和认知的相关性:鹿特丹研究

近日,一项发表在Neurology上的研究发现,NAFLD和纤维化与偶发痴呆风险增加无关,也与认知功能受损无关。相比之下,NAFLD在随访的前五年甚至是保护性的,暗示了在痴呆发作前NAFLD的退化。

问诊分析:肺磨玻璃小结节,真的不必在意到底是原位癌还是微浸润性腺癌!

本文针对一位男性患者右肺下叶磨玻璃结节,根据影像特征判断为肿瘤范畴,原位癌可能性大,建议先随访,待进展后再考虑手术。借此病例指出对于纯磨玻璃结节不必纠结病理类型,强调依风险判断是否手术。

问Deepseek:肺结节风险评估极简原则——单次看密度,随访看对比!

叶建明提出肺结节风险评估 “单次看密度,随访看对比” 观点,从密度是单次评估核心、随访对比有动态观察价值阐述其临床合理性,还提及可操作性、局限性及注意问题,强调需多维度评估等。