在肿瘤研究和治疗中,驱动基因为肿瘤的起始、扩增和转移、靶向抗癌治疗模式的发展以及预后和治疗反应的生物标记物相关研究提供了新的线索。随着高通量测序技术在肿瘤学及医学遗传学中的应用,多种癌症驱动基因鉴定软件在国际上发表。尽管这些软件在发表时都强调了其性能优势,但不同软件在不同条件下通常会表现出不同的准确性和灵敏度,选择高可信度的癌症驱动基因预测软件显得尤为重要。为此,北京生科院孙中生课题组首次评估了不同的计算方法在预测候选癌症驱动基因方面的性能,还开发了一个新的在线工具,目的是为癌症相关研究人员和临床肿瘤学家寻找候选癌症驱动基因提供了初步指导。研究成果于2022年1月18日在国际期刊briefings in bioinformatics发表,题目为 “Comprehensive evaluation of computational methods for predicting cancer driver genes”,由中国科学院北京生命科学研究院孙中生团队与北京大学第三医院合作完成。
该课题组为了评估不同的预测候选癌症驱动基因计算方法的性能,选择了基于TCGA(36种癌症类型)和PCAWG(泛癌)的突变测试数据,用8个基准数据集评估了8个基于网络、1个基于功能和3个基于频率的算法的8个性能指标。此外,课题组还将12个软件的驱动基因可能性得分整合到了一个名为Cancer Driver Catalog的网站中(http://159.226.67.237/sun/cancer_driver/)。
课题组的评估结果表明,不同软件的性能在不同的网络数据集、评估指标和样本大小方面有所不同。基于频率的driverMAPS和基于网络的HotNet2方法显示出整体最优性能。而使用蛋白质-蛋白质相互作用网络的基于网络的算法性能优于基于功能和基于频率的方法。大多数软件的精确度、F1分数和Matthews相关系数都较低。因此,这些算法中的大多数都需要更严格的阈值来正确区分驱动基因和非驱动基因。此评估研究为科研和临床工作者提供了选择癌症驱动基因鉴定软件的指导,提高了我们对癌症驱动基因在早期癌症检测、治疗干预和患者预后中作用的理解。
该项工作由孙中生组博士研究生石晓辉完成,孙中生研究员和北京大学第三医院毛凤彪研究员为论文的共同通讯作者,此研究得到了中国国家自然科学基金、广东省重点研发计划项目、临床医学加X-青年学者项目及北京大学第三医院研究启动资金项目的资助。论文链接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab548/6509048。
基于功能、频率和网络的方法识别驱动基因的评估概述