代谢biomarker筛选是疾病早期筛查和预后评估的重要手段,一组有效的代谢Biomarker筛选是一个漫长且艰难的过程。从临床样本的选择、队列分组到实验思路设计再到大量的数据分析均是生物标志物筛选缺一不可的关键环节。到底应该如何筛选并对临床样本进行分组?如何设计严谨的筛选-验证实验?如何评估标志物的诊断效能?本期我们选择5篇临床biomarker筛选文章,看完这个系列,相信以上问题都会迎刃而解。
临床biomarker专题
文章1. 增强HBV-ACLF预后的生物标志物筛选
文章2. 频发型与偶发型痛风患者的血清代谢标志物新发现
文章3. 结直肠癌的基于菌群和血清代谢物的诊断模型建立
文章4. 脂质组学生物标志物:尿双酚A暴露与结直肠癌之间的潜在介质
文章5. 肝细胞癌早期检测的大规模、多中心血清代谢物生物标志物鉴定
文献解读 | (IF=13.3)频发型与偶发型痛风患者的血清代谢组差异
痛风主要是由尿酸钠(Monosodium Urate, MSU)晶体沉积在关节或周围组织引起的急性炎症反应。针对频发型痛风(Frequent Gout Flares, FrGF)即每年痛风发作次数≥2次,和偶发型痛风(Infrequent Gout Flares, InGF)即每年痛风发作≤ 1次,多个国家指出在临床上需要进行差异化治疗。
实验设计图
研究表明,代谢与痛风炎症密切相关,且痛风发作频率有关的代谢物变量较多,比如血清尿酸和MSU晶体沉积等,但这些变量都不能完全预测痛风发作频率。因此,利用代谢组学方法筛选InGF和FrGF的差异代谢物和通路,并通过机器学习(machine learning, ML)算法建立预警模型,为痛风的治疗策略提供研究基础。
研究结果
1. 痛风患者的临床特征
总结两组患者的临床特征后发现,虽然其他生化指标很相似,但是FrGF患者痛风石、血清尿酸水平和用药量显著提高,以及治愈率显著降低(表1)。
表1 InGF和FrGF患者的临床特征
2. 血清的代谢组学特征能区分不同的发作频率
为了研究InGF和FrGF患者血清中的代谢特征,作者对发现集队列中的163名InGF患者和239名FrGF患者的样本进行了代谢组学检测。使用机器学习算法筛选代谢生物标志物来区分InGF与FrGF,并建立预测模型。该模型在236名验证集队列参与者(97名InGF和139名FrGF)的靶向代谢组学技术数据中得到进一步优化和验证。
对两组(163名InGF患者和239名FrGF患者)血清样本进行非靶向代谢组学分析(图1)。在PCA模型和OPLS-DA分析中,两组患者能被很好区分(图1 B),LASSO回归模型和聚类分析都能观察到明显的组间差异(图2 D、E)。这说明InGF组和FrGF组在代谢组学的数据中能够很好区分。
图1 InGF和FrGF的血清代谢组学分析结果
3. 筛选InGF和FrGF的差异代谢产物和关键代谢通路
使用Mann-Whitney U检验去筛选两组间的差异代谢物,共鉴定到439种差异代谢物,其中有116个代谢物上调(FDR<0.05,FC>4/3),323个代谢物下调(FDR<0.05,FC>3/4)(图2 A)。将差异代谢物进行KEGG注释后发现,共映射到57条KEGG通路(FDR<0.05),其中碳水化合物代谢、氨基酸代谢和核苷酸代谢通路富集程度最高(图2 C)。
用FELLA软件对KEGG数据库进行通路搜索和调控互作网络分析,结果显示嘌呤代谢通路和咖啡因代谢通路之间互相干扰最严重(图3A)。分析发现各种药物治疗对InGF和FrGF之间的差异代谢物的数量的影响有限。因此,本研究中观察到的代谢改变主要是由内源性代谢通路引起的。
图2 InGF和FrGF组之间差异代谢物和代谢通路分析
图3 调控网络分析图
4. 利用靶向代谢组学技术筛选代谢物生物标志物来建立预测模型
用多变量选择算法(Multivariate methods with Unbiased Variable selection in R, MUVR)建立了预测模型,并在支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)和LASSO等机器学习模型中进行了测试。发现所有检出代谢物都适用该预测模型(图4 A、B)。
该模型的靶向代谢组学技术数据中得到进一步优化和验证。
对236名验证集队列参与者(97名InGF和139名FrGF)进行靶向代谢组学分析,从25个代谢生物标志物中选出14个和非靶结果趋势一致的代谢生物标志物。随后在研究适合嵌入模型的代谢物数量时发现,随着代谢物数量的增加,在发现队列和验证队列的AUROC均呈现先上升后下降的趋势。当选择4-三甲基-氨基丁酸、5’-甲硫腺苷、花生四烯酸、牛磺酸、尿苷和黄嘌呤这6种代谢物时(图4 F),该模型在发现和验证队列中均达到最佳AUROC。于是将这6种选定的代谢物纳入logistic回归模型,得到如下预测公式:
根据该公式,当预测分数> 0.5时,受试者被划分到FrGF组,而当预测分数< 0.5时,受试者将被归类为InGF。
图4 预测模型的建立和验证
研究结论
1.本研究利用402(163名InGF患者和239名FrGF患者)纳入研究;
2.利用非靶代谢组学和机器学习算法,揭示了区分频发型与偶发型痛风发作患者的代谢特征和关键通路,基于靶向代谢组学数据中的六种代谢物(4-三甲基-氨基丁酸、5’-甲硫腺苷、花生四烯酸、牛磺酸、尿苷和黄嘌呤)作为生物标志物,建立了预警模型;
3.本研究有助于深入了解痛风的发病机制,并为个体化的痛风管理和治疗策略提供新线索。