基因组结构变异是指基因组上由于一段或者多段基因序列因遗传、病变或自然突变等原因在基因组上产生的插入、删除、倒位、移位等变异。从规模上讲,包括小至若干碱基对的变异到大至上万碱基对甚至染色体规模的复杂变异。每一个人的基因组上都存在大量不同规模、不同类型的结构变异,这些结构变异不仅是造成人与人之间表型差异的主要原因,同时也与很多疾病的产生与作用相关。INDEL变异在基因组结构变异中最常见且在很多重大疾病对人类基因组的影响中扮演重要角色。目前对INDEL变异识别的研究却尚不完善,不仅当前主流INDEL识别方法大多无法提供灵敏、稳健的全规模INDEL识别,而且很少有方法能够满足随着对肿瘤病变基因组研究的发展对肿瘤相关的结构变异杂合度提供准确估计的要求。
近日,中科院北京生科院赵方庆研究团队针对高通量测序数据,构建了基于断点策略的多信号整合INDEL识别方法。与现有主流识别工具相比,该方法能够高效识别各种规模的INDEL变异,提供全基因组上完整的INDEL规模分布信息,同时可提供每个所识别的INDEL精确的变异断点发生位置,为后续针对基因组结构变异特别是位于基因、exon区域的变异对基因表达、蛋白表达影响的分析提供重要参考方向。此外,该方法针对杂合变异能够提供近似无偏的杂合度估计,由于变异杂合度往往反映了肿瘤的发展阶段等的重要信息,使得该方法能够很好地服务于针对肿瘤数据及相关结构变异的研究。
此项工作由赵方庆研究团队的硕士研究生赵辉完成,目前研究论文已经在国际学术期刊Nucleic Acids Research在线发表。本项目受到国家自然科学基金重大研究计划资助。
论文链接
图:多重结构变异特征对INDEL识别的贡献