Front Immunol:机器学习预测鼻咽癌患者远处转移的风险:基于1845例临床大数据的研究
2025-07-05 熊佳仪 MedSci原创 发表于上海
通过机器学习方法构建远处转移预测模型,首次在中国较大规模人群中融合临床、实验室及治疗数据,AUC达0.85,模型预测效能优异。
鼻咽癌作为一种起源于鼻咽上皮的恶性肿瘤,流行于东亚和东南亚地区,发病率具有显著地域性。EB病毒感染、遗传易感性以及环境因素(如吸烟)等均被认为是其发病的重要影响因素。尽管以放疗和化疗为主的综合治疗已显著提升局域鼻咽癌患者的生存率,部分患者尤其是晚期患者仍存在较高的远处转移风险,约30%最终会出现复发或转移,严重影响预后和生存。
远处转移是NPC治疗失败及患者死亡的主要原因。目前,晚期或转移性NPC患者首选铂类化疗方案联合新兴免疫检查点抑制剂(如PD-1/PD-L1抑制剂),但仍面临耐药性及经济负担问题,亟需基于数据驱动的方法精确预测远处转移风险,为高危患者早期制定干预措施提供支持。
该模型为临床医生评估NPC患者远处转移风险及制定个体化治疗方案提供了科学依据。同时利用SHAP(SHapley Additive exPlanation)方法精准解析模型特征权重,深度揭示危险因素与远处转移之间的关联,有助于临床实践中的风险筛查和干预策略优化。
本研究回顾性收集1845例经病理确诊的NPC患者临床资料,包括人口学特征(性别、年龄、BMI)、治疗方案(放疗、化疗、靶向治疗、免疫治疗)、实验室指标(乳酸脱氢酶LDH、淋巴细胞计数LY等)、肿瘤分期(TNM分期第8版)、合并症(高血压、糖尿病等)、以及EB病毒感染状态。远处转移情况作为主要结局变量。
数据缺失率>10%的变量予以剔除,其余缺失值使用随机森林算法进行多重插补。数据按70%训练集与30%测试集拆分,利用LASSO回归筛选特征。模型构建采用逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、K近邻(KNN)、神经网络(NNET)、XGBoost与LightGBM等7种机器学习方法,并通过交叉验证与ROC曲线、决策曲线分析(DCA)评估模型表现,最终选择逻辑回归模型建立风险预测工具。
通过SHAP方法解释模型结构,识别最关键特征变量及其对预测风险的正负影响。多变量Logistic回归分析结合限制性立方样条(RCS)方法进一步解析连续变量与远处转移的非线性关联。伦理审批由复旦大学眼耳鼻喉医院伦理委员会批准,研究符合赫尔辛基宣言原则,因匿名回顾性设计免除患者书面知情同意。
研究结果
本队列共纳入1845例NPC患者,其中远处转移患者162例(占8.8%)。总体男性占73.1%,均数年龄52.3岁,44.0%有吸烟史,32.9%有饮酒史。大多数患者为晚期肿瘤(T3/4 77.3%,N2/3 63.7%),87.6%病理类型为未分化癌。65.3%接受靶向治疗,13.3%接受免疫治疗(表1)。高血压、糖尿病等合并症比例分别为27.5%和8.5%。EB病毒检测阳性者占73.3%。
图2. LDH及淋巴细胞计数与远处转移风险的剂量-反应曲线
单变量分析筛选出性别、T分期、N分期、靶向治疗、免疫治疗、高血压、EB病毒感染状态、LDH、淋巴细胞计数等11个变量与远处转移相关(P<0.05)。多变量分析进一步确认性别(男性风险升高1.84倍,P=0.007)、T分期(T3/4)和N分期(N2/3)显著增加转移风险,靶向治疗(OR=0.28,P<0.001)、免疫治疗(OR=0.05,P<0.001)及高血压(OR=0.36,P<0.001)为保护因素。EB病毒感染阳性者风险增加3.66倍。LDH和淋巴细胞计数亦为独立危险及保护因素。
图3. LASSO回归筛选特征路径图与交叉验证
RCS分析显示LDH水平与转移风险存在线性及非线性关系(P-overall<0.001, P-nonlinear=0.01),其中LDH >239 U/L时转移风险明显上升。淋巴细胞计数与转移风险呈线性关系。
图4. 不同机器学习模型ROC曲线比较(训练集及测试集)
LASSO筛选出8个重要特征用于模型构建,包含T期、N期、靶向治疗、免疫治疗、高血压、EB病毒状态、LDH及淋巴细胞计数。7种算法中,逻辑回归模型在测试集表现最优,AUC达到0.8499,DCA曲线显示临床净受益最大。
图5. SHAP模型解释图及基于逻辑回归的远处转移风险预测列线图
SHAP解释结果表明靶向治疗、N期、免疫治疗、EB病毒、(高血压)、T期、淋巴细胞和LDH的贡献度依次递减。其中N2/3期、EB病毒阳性、T3/4期及较高LDH显著升高远处转移风险,而靶向治疗、早期N/T分期、免疫治疗、合并高血压及淋巴细胞升高则降低风险。基于LR模型构建远处转移风险预测列线图,便于临床量化风险评估及辅助决策。
研究价值与意义
本研究基于中国东部地区大规模、详尽的人群临床数据,首次系统利用机器学习方法整合多维指标,构建并验证了用于鼻咽癌远处转移风险预测的高效模型,AUC接近0.85,显示出良好的区分能力。研究不仅确认了传统临床预后因子(T/N分期、EBV)对转移风险的重要性,更揭示了靶向及免疫治疗作为显著的保护因素,为临床早期干预提供了强有力的证据。
特别值得关注的是,研究发现合并高血压患者远处转移风险显著降低,提示高血压相关药物可能通过间接机制影响肿瘤转移,这为未来探索抗高血压药物的肿瘤辅助治疗潜力提供了新视角。乳酸脱氢酶作为颇具代谢学意义的指标,其阈值的非线性效应也指示了肿瘤代谢活性的临床重要性。
该研究成果对个体化治疗策略制定、靶向高危患者精准监测具有重要指导意义,能够帮助临床医生精准识别转移风险,合理优化免疫及靶向治疗时机与适应证,推动NPC患者生存获益的最大化。同时研究设计合理,模型解释透明,具备临床推广潜力。
不过研究也存在回顾性单中心的局限,未来需多中心的前瞻设计和时间序列验证以进一步提升模型泛化能力,且对高血压相关保护效应的机制亟待深入探索。此外,因缺少治疗细节和远处转移发生时间数据,无法开展生存曲线分析,仍需补充前瞻数据完善预测体系。
综上,该研究为改善鼻咽癌远处转移风险预测及治疗方案制定贡献了创新的机器学习工具和临床见解,助力NPC精准医学迈出重要一步。
原始出处
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言

#鼻咽癌# #机器学习#
18 举报