第一节 NGS的发展
1.DNA和RNA的概念
核酸包括脱氧核糖核酸(deoxyribonucleic acid, DNA)和核糖核酸(ribonucleic acid, RNA),是生命信息的载体,主要功能是信息储存,其中包含生命生长发育所需的全部信息。DNA是储存、复制和传递遗传信息的主要物质基础。RNA在蛋白质合成过程中起重要作用——信使核糖核酸(messenger RNA, mRNA)是合成蛋白质的模板;转运核糖核酸(transfer RNA, tRNA)起携带和转移活化氨基酸的作用;核糖体核糖核酸(ribosomal RNA, rRNA)是蛋白质合成的主要场所。
2.测序的发展
由于DNA是生命信息的蓝图,解码DNA信息就可以加深我们对生命过程的理解。从DNA的双螺旋结构被解析开始,人们就一直在努力探究健康与疾病的基因奥秘。DNA测序作为一种重要的实验技术,广泛应用于生物学研究领域。第一代DNA测序技术包括1975年由Sanger和Coulson开创的链终止法(也称Sanger法)以及1976年—1977年由Maxam和Gilbert发明的化学法(链降解法)。1977年,Sanger首次测定了一个噬菌体X174的基因组序列,全长5375个碱基[1]。自此,生命科学研究步入了基因组学时代。2001年,研究人员在改进的Sanger法基础上完成了首个人类基因组图谱。
Sanger法巧妙地利用了DNA合成的原理。在DNA的复制过程中需要:DNA聚合酶、DNA模板、引物和4种脱氧核糖核苷三磷酸(deoxyribonucleoside triphosphate, dNTP)[脱氧腺苷三磷酸(deoxyadenosine triphosphate, dATP)、脱氧鸟苷三磷酸(deoxyguanosine triphosphate, dGTP)、脱氧胸苷三磷酸(deoxythymidine triphosphate, dTTP)和脱氧胞苷三磷酸(deoxycytidine triphosphate, dCTP)]。聚合酶根据碱基互补配对原则将dNTP加到引物的3′-OH末端,使引物延伸,合成出新的互补DNA链。如果加入双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate, ddNTP),由于它在脱氧核糖的3′位置缺少一个羟基,不能与后续的dNTP形成磷酸二酯键,会导致延伸终止。例如,在存在三磷酸双脱氧胞嘧啶核苷(ddCTP)、dCTP和3种其他dNTP(其中一种为α-32P标记)的情况下,将引物、模板和DNA聚合酶一起延伸,即可形成一种长短不一、具有相同的5′-引物端并以ddC残基为3′端结尾的片段混合物。然后利用变性聚丙烯酰胺凝胶电泳,可以将各个片段按其链长的不同进行条带分离,最后获得相应的放射性自显影图谱,即可从所得图谱直接读取DNA的碱基序列了。这个方法是先合成再测序,准确率高,但费用也高。
Sanger法作为测序的“黄金标准”,为生物医学的发展做出了突出贡献。随着技术的发展,特别是人类基因组计划的推荐,二代测序逐渐进入人们的视野。
3.二代测序的基本概念和平台发展
随着人类基因组计划的进行和完成,人们认识到通过测序技术与数据分析可以解答诸多的生物学问题。然而,测序通量的限制以及高昂的成本阻碍了人们对生命活动和疾病的深入了解[2]。2000年之后推出的高通量测序平台很好地解决了这些问题,人类基因组的测序成本直接下降了50000倍,并且由此产生了一个新名词:二代测序(也称下一代测序,NGS)。在过去的十年中,NGS得到不断发展——测序的数据量较前增加了100~1000倍[3]。技术方面,研究人员甚至可以在一条读长(read)上读出整条基因组的序列。Veritas Genomics的数据显示,人类基因组的测序成本已下降到1000美元/人。目前,NGS技术也被广泛应用到临床诊断方面。
NGS是通过高通量技术来实现大规模测序,所以也叫作高通量测序(high-throughput sequencing, HTS),主要包括如下几种方法:① 边合成边测序(sequencing by synthesis, SBS),代表性的有Roche公司的454焦磷酸测序、Illumina公司的Solexa合成测序;② 边连接边测序(sequencing by ligation, SBL),如ABI公司的SOLiD连接法测序。
454焦磷酸测序的原理是借助生物发光来对DNA序列进行检测。在DNA聚合酶、ATP硫酸化酶、荧光素酶和双磷酸酶的协同作用下,系统将引物上每一个dNTP的聚合都与一次荧光信号相偶联。通过检测荧光信号释放的有无和强度,就可以实时测定DNA序列了。此技术不需要荧光标记的引物或核酸探针,也不需要进行电泳,具有分析快速、结果准确、高灵敏度和高自动化的特点。
SBL方法则是使用带有荧光基团的探针与DNA片段杂交,再连接邻近的寡核糖核酸,从而成像,然后通过荧光基团的发射波长来判断碱基或者互补碱基的序列。该方法包括5轮测序反应,每轮又含有多次连接反应(一般情况下,片段文库是7次,末端配对文库是5次。所以片段文库共有35次连接反应,而末端配对文库共有25次连接反应),第一次连接反应由与P1引物区域互补的“连接引物”介导。
绝大多数的SBL和SBS方法,都是在一个固定的表面进行DNA扩增,使特定区域内有成千上万个DNA片段拷贝,可以确保将方法信号与背景信号区别开来。同时,大量的平行碱基信息有助于大批量reads的读取。一个测序平台通常可以达到百万级的数据读取量,也就是能对上百万DNA分子进行同时测序。与一代测序相比,NGS具有通量大、精确度高和信息量丰富等优点,可以对目标基因进行迅速精准定位,也可以用来检测未知序列,还可以对组织在特定时间表达的mRNA进行测序[4]。
不过NGS技术也有其不足之处,它虽然在数据量上有了大幅提升,但质量却有待提高。有报道称,NGS在序列拼接过程中的错误率为0.1%~1%。而且NGS生成的read普遍较短,每条read的长度在35~700bp之间[5],比普通的Sanger法测序都要短,这意味着需要更严格且复杂的序列拼接。