2017年2月28日,国际学术期刊Briefings in Bioinformatics发表了中国科学院北京生命科学研究院赵方庆团队题为“Circular RNA identification based on multiple seed matching”的最新研究成果。因为目前在环形RNA识别方面存在着假阳性率高、敏感度不够等问题,该团队研究并提出了全新的多重种子匹配算法及最大似然估计模型,可以精确识别环形RNA接头序列,以显著提升环形RNA的识别效率。
目前已有的环形RNA识别算法均基于对环形RNA接头序列的查找,可分为基于注释的算法以及从头预测的算法。然而,由于真核生物转录的复杂性及环形RNA分子的特殊性,以上两类识别算法均面临着灵敏度低、可靠性差、运算时间长或内存使用高等问题,其应用也因此受到限制。此外,对上述识别算法的评价体系却仍主要依赖模拟数据,难以对相关算法在真实转录数据中的表现进行客观衡量。
针对此现状,赵方庆团队提出基于多重种子匹配策略的算法,针对比对质量较低的基因组区域,按长度降序进行种子序列提取,并将之与前后侧翼基因组区域进行快速匹配。同时,建立了最大似然估计模型,判断该种子序列的真实来源,并排除来自线性转录本或剪接副产物的干扰,从而极大提高了环形RNA分子识别的精度。该研究摒弃了偏差较大的模拟数据评测方法,采用 RNase R降解前后真实转录数据的比对体系,对10种已有算法进行全面的评测比较。结果显示本研究建立的方法在包含灵敏度与可靠性在内的综合表现(F1得分)上具有明显的优势,其并行模式还可进一步提升运算速度及内存使用效率。该算法与此团队开发的CIRI, CIRI-AS等分析工具(Genome Biology, 2015; Nature Communications, 2016)实现无缝衔接,将进一步促进环形RNA组成及功能等方面的研究。
该工作由赵方庆课题组的研究生高远和张金阳完成,得到了国家自然科学基金委和中国科学院的经费支持。
论文链接
基于多重种子匹配策略的环形RNA识别算法