全基因组测序的前世今生

基因组代表了遗传研究的起点。自从发现DNA结构以来，科学家们一直致力于以精确的方式确定碱基的排列顺序。从1965年开始第一个酵母的片段测序到现在，测序的读长依然不足以覆盖大多数物种整个基因组的大小，因此基因组组装技术也一直是不断研发改进的关键技术。本文系统的回顾了整个基因组测序相关的重要技术、主要里程碑以及当前三代测序技术的优势和挑战。

下图展示了基因组组装的各个重要的里程碑。不同的颜色背景分别展示了从最早基于核苷酸的早期测序到基于Sanger的鸟枪法测序，到大规模的二代NGS测序，再到现在的三代TGS测序的主要组装成就。历时13年（1990-2003）耗资30亿美元的人类基因组计划（HGP）毫无疑问加速了基因组组装的进程，NGS衍生了一系列新颖的应用，包括全外显子组测序、RNA-seq、ChIp-seq、WGBS-seq等等，极大的促进了基因组测序的应用。2010年之后，全新的技术开启了第三代测序TGS—长读长测序的时代，长读长测序极大的增加了基因组组装的优势，基因组组装的连续性大大提高。

TGS的定义可能会有所不同，通常是指无需扩增直接对单个DNA分子进行测序的技术。这些技术产生比NGS更长的reads，每个reads可以跨越几到几百kbps的长度。10X Genomics linked reads 以及Hi-C等NGS的技术可以使得基因组组装连续度有一定的提升，但是TGS的出现，使得组装连续度的提升变得更加容易。

目前应用比较多的三代测序技术，一种是Pacific Biosciences(PaciBio)公司完善和商业化的单分子实时测序技术（SMRT）,另一种是Oxford Nanopore Technologies（ONT）公司商业化的纳米孔测序技术（Nanopore）。SMRT测序技术应用了边合成边测序的原理，以SMRT芯片为测序载体，载体上分布上百万个纳米级的零模波导孔（ZMW），每个ZMW中聚合酶捕获文库DNA序列，通过荧光激发dNTP，从而根据捕获荧光信号的长短，进行边合成边测序。目前SMRT测序有两种模式，一种是Continuous Long Read（CLR）模式，一种是Circular Consensus Sequences（CCS）模式。CLR的读长更长，但是碱基测序的错误率较高（准确率90%远低于NGS的99.9%），但是测序错误是完全随机的，CCS模式即利用这种特性，通过自我校正的方法将测序的错误率降低到了NGS的水平，与此同时相比CLR牺牲了测序读长。

纳米孔测序使用插入人工脂质双层的转基因细菌纳米孔，放置在几十微米宽的单个微孔中并排列在传感器芯片上，当每条单链 DNA 穿过一个通道时，它会扰乱流过孔的电流，并由半导体传感器测量变化。不同的碱基以略微不同的方式破坏电场，记录的电流变化可以转化为 DNA 序列。ONT可以读取的长度更长，取决于制备的DNA文库的大小，但是其碱基的准确率难以校正，测序的错误率也较高。

三代测序技术，由于其超长的读长，可以有效的跨越基因组中复杂的区域，从而显著提高基因组组装的质量。此外，在二倍体（多倍体）基因组中，TGS可以更容易的生成单倍型的长定相块，区分来源于父母本的遗传信息，避免嵌合的基因组，有助于准确的进行包括高度重复区域的长变异、大型的插入缺失、重复、倒位和易位等结构变异（SV）检测。同时三代测序还可以通过PacBio的酶动力学反应或Nanopore中的离子电流信号来实现表观遗传的测序。

FALCON是PacBio直接开发并于2013年发布的基于三代数据的De novo组装软件，它继承于分级基因组装配（HGAP）流程，首先进行序列自身的比对，以校正三代测序的reads准确度，然后使用de Brujin图（DBG）构建重叠群，如下图所示。FALCON可以识别二倍体序列，可以输出包含位点变异信息的等位基因序列（alternative contigs / a-contigs）和主要的基因组序列（primary contig / p-contig）。FALCON-Unzip是FALCON的升级版，可以利用初始组装中鉴定的杂合SNP来获得高度定相的单倍型，再利用Hi-C数据映射到组装中，利用haplotigs和***有序列，将两个单倍体完全组装出来。

Canu是起源于Celera Assember的三代组装软件，可以用于PacBio和Nanopore两家公司得到的测序结果，其采用Overlap-Layout-Consensus（OLC）的方式进行组装，即利用长序列与序列之间的交叠进行组装，主要分为纠错、修剪和组装三大步。对于FALCON来说，虽然经过组装之前的纠错，相比短读长有比较大的改进，但其组装出来的单倍型仍然是嵌合的，重复序列经常被折叠到一个序列中，为了解决这个问题，2018年发布的新版本的软件TrioCanu可以利用亲本信息来完全定相单倍型，其利用父母本的二代illumina数据在组装之前根据不同的SNP对组装样本的序列进行分类，然后进行独立组装出两套来源于亲本的单倍型，因此TrioCanu尤其适合于高杂合的基因组组装。

Canu的计算是比较慢的，HiFiasm是近两年开发的一个用于PacBio HiFi reads的快速单倍型解析从头组装软件，它可以在单个机器上多线程运行，在较少的资源消耗下快速完成基因组的组装，同时也可以在给定亲本数据的情况下，实现子代来自不同亲本的单倍体组装。但是其单倍型分型的准确性略差于TrioCanu。

组装结果的准确性，计算工作的优化都是组装需要考虑的方面，目前已开发出多种从头组装的软件，除以上介绍的软件外，还有Wtdbg2、Flye、Peregrine、Shasta等等，这几个软件的速度都比较快，但是其组装质量可能没那么准确。所有的基因组组装方法和软件都有优点和缺点，实际应用中可以考虑实际组装物种的情况，以及测序策略、组装目标，综合考量选取准确优秀的组装软件。

对于大基因组来说，即便长读长的reads也不能跨越整条染色体序列，需要其它连锁信息来定位和排序组装的重叠群，以将基因组组装提升到支架（Scanfold）水平。Bionano光学图谱是一种单分子DNA技术，该方法基于DNA标记，生成遗传光学图谱，然后结合初始组装的重叠群，可以进一步对重叠群进行定相和排序，产生更长的支架。除此之外，Bionano光学图谱还可以用于SV和甲基化的分析。

另外一种定向和排序重叠群的技术是基于染色体构象捕获（3C）的技术（Hi-C）。Hi-C技术首先使用甲醛将染色体空间构象固定之后，再利用限制性内切酶处理DNA，并重新连接空间上临近的DNA分子，该技术利用基因组的空间信息，组合重叠群以及支架将其分配到染色体水平。Hi-C目前是在大基因组中实现染色体水平支架的唯一方法，但往往不如Bionano支架那么保守，染色质不可预测的折叠导致染色体远处区域的相互作用，可能导致组装错误，例如人工倒位、同一染色体内的支架错位或不同染色体的支架错配。综合利用不同的技术可以更好地纠正这些错误，甚至可以获得整个染色体的端粒到端粒组装。

基因组组装的方式一直在不断创新、优化。通过不断改进现有技术并引入全新的 DNA 测序方法和生物信息学工具，组装的质量一直在提升。NGS 引入的高通量能力和 TGS 提供的更高质量序列，最终使复杂的基因组也可用于全基因组研究。人类遗传学研究，包括人口基因组学、遗传疾病定位和诊断、个性化医疗计划、癌症研究和产前检测，已经受益于过去十年基因组测序和组装的进步。同样，这些方法越来越多地用于非模式生物以了解生态和进化过程。对参考基因组测序和组装的承诺现已从单一物种项目扩大到多物种协调工作，旨在使用 NGS 和 TGS 方法组合为大多数生物体产生高质量基因组的项目目前正在进行中。

Giani AM, Gallo GR, Gianfranceschi L, Formenti G. Long walk to genomics: History and current approaches to genome sequencing and assembly. Comput Struct Biotechnol J. 2019 Nov 17;18:9-19. doi: 10.1016/j.csbj.2019.11.002. PMID: 31890139; PMCID: PMC6926122.