长读长测序技术,例如 PacBio HiFi 测序,正在迅速成为基因组学研究的新黄金标准。本文介绍了长读长测序是什么,以及探讨了它的技术优点、应用等主题的简介。
背景介绍
从孟德尔对生物遗传规律的第一次猜测到尼伦伯格解码基因密码等其它更深入的研究,解密生命运作的本质已经成为全球科学家近两个世纪以来的中心目标。今天,许多最紧迫的生物学问题的巨大复杂性要求研究人员不仅考虑单个基因或遗传模式,还要考虑生物体的全部遗传信息(基因组)及其更多的功能。
由于基因组可以长达数百万乃至数十亿个碱基,因此,从样本中提取一个完整的基因组至少目前还是一项不可能的任务。相反,研究人员利用仪器从小的单个片段中重构基因组序列信息。在这个过程的第一步中,基因组被分解成惊人数量的碎片,然后才能进行实际的测序、重组和分析。根据所使用的技术,提取的DNA样本将经历若干个预处理步骤,以确保测序仪获得的片段大小适合系统的能力。基于它们的底层化学和所分析的DNA片段的长度,测序仪可以分为长读长和短读长两种类型。
什么是长读长测序?
长读长测序是一种核酸测序类型,它能够产生单独的读取(read),这些 read 各自来自于一个长度为数千个核苷酸或更长的单个DNA分子,从而生成基因组数据。
长读长测序能够检测长度为1,000到20,000个碱基或更长的DNA(或RNA)片段。这些片段通常来自于“原生”分子,这些分子是直接从生物样本中提取出来进行分析的。相比之下,大多数短读长测序技术只能检测50-300个碱基长度的片段。与大多数长读长方法不同,短读长测序解决方案无法有效地对原生分子进行测序,并且在分析之前需要对提取的DNA进行扩增。
长读长测序和短读长测序之间的基本差异在于所分析分子的长度,这毫不奇怪。每种方法都有其自身的优缺点,这取决于研究应用的目的。为了了解短读组装和长读组装之间的差异,并了解为什么长读测序在整个基因组重建等领域表现优异,请参考以下示例。
用短读测序技术和长读测序技术组装基因组的区别,可以用两种不同的方法来想象从随机片段文本中重建一本500页小说的过程。
短读长测序相当于仅使用像“然后有”或“有时她”这样的碎片化语句。想要从这样短的文本片段中重建一本小说是令人望而生畏的艰巨工作,因为它们不完整,缺乏必要的上下文信息来帮助我们正确地将它们排序。同样,仅使用短读长测序数据来重建高度准确和高度详细的完整基因组(在我们的比喻中相当于一本书)也会非常困难,需要通过复杂和耗费算力的数学模型才能完成。即使在克服将所有这些碎片重新组装在一起的挑战之后,最终的短读组装仍经常包含许多错误和缺失信息的空白。
使用长读长测序数据,组装基因组就容易多了,就像用包含整个段落而不是小碎片文本的片段拼凑我们的500页小说一样。这些长段落提供了关于情节中重要事件的上下文信息,使得将它们正确排序来重建故事变得更加容易。同样,使用长读解决方案创建基因组组装所需克服的障碍比使用短读解决方案更为简单,需要更少且不那么复杂的计算步骤。
长读长技术的优势取决于准确性
“……虽然读长通常被认为是主导因素之一……,但我们的结果表明,HiFi 技术更高的测序准确性超过了读长所带来的好处。”
—— Mahmoud 等人[1],2023年
延续500页小说的比喻,需要注意的是,并非所有的长读测序技术都是相同的。有一个关键的因素可以区分不同的长读技术:准确性。
正确地组装基因组不是一件小事,尽管长读长比短读长能提供更多的上下文信息,但如果准确性不足,则这些优势会受到削弱。用我们的书比喻来说,使用不准确的长读数据就像使用长的文本片段,这些片段足够连贯以提供情节上下文,但同时充满了拼写错误和含糊不清的文本,使得很难确切地理解关键事件发生的方式和时间。与短读长类似,克服由不准确的长读长技术带来的分析挑战可能需要耗费时间,并需要复杂的计算处理和数据优化。在我们的比喻中,如果只需要基因组的模糊摘要,则这种准确率水平可能是可以接受的。但是,如果任务要求在重建过程中每个字母和每个标点符号都尽可能正确,那么就需要最好的文本片段。
什么是 HiFi 测序?
为了在基因组分析中满足这种对长度和准确性的双重需求,PacBio的科学家们开发了HiFi测序技术。
HiFi 测序是一种单分子、长读长度的测序技术,能够生成长且准确的读取序列。HiFi 测序是由 PacBio公司开发的,并且是所有PacBio长读测序仪器上运行的核心化学技术。
HiFi 测序的起源可以追溯到2000年代初,由PacBio首席技术官Stephen Turner博士和首席科学官Jonas Korlach博士在康奈尔大学开发的纳米流体设计和单分子实时化学技术。
与其他长读技术存在高度不稳定化学和数据质量不同,HiFi 测序在能够提供研究人员非常一致的测序性能方面独具特色,生成的读取序列长度可达 15,000 到 20,000个碱基或更长。此外,用于确定序列的共识方法(见下面的“工作原理”部分)使得 HiFi 测序可以达到 99.9% 的准确度。综合这些长度和准确性指标,使得 HiFi 测序成为了全球研究基因组学中最复杂和技术挑战最大的领域的最强大的测序技术之一。
由于对基因组研究的重要贡献,HiFi测序获得了2022年《Nature Methods》杂志颁发的著名荣誉称号“年度方法”。
PacBio HiFi 测序的原理
HiFi 测序开始时,悬浮在溶液中的样品DNA的环状文库片段涌入被称为SMRT(单分子实时)芯片的纳米微流控芯片表面。这种芯片的表面上覆盖着几百万个纳米级直径的小孔,称为零模波导孔(ZMW),样品流过SMRT测序芯片时,DNA的环状文库被固定在ZMW孔的底部。一旦样品DNA位于ZMW孔内,会加入游离核苷酸,并在库制备过程中附着在样品DNA上的DNA聚合酶并开始复制DNA分子。当聚合酶将新的核苷酸碱基合并到新复制的链中时,会释放出微小的光,并被检测器捕获。根据发射的光,测序系统可以确定哪种DNA碱基(腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤)被合成了。
类似于赛车在环形赛道上重复绕圈,HiFi测序中的DNA聚合酶在样品DNA分子的环状结构周围工作多次。由于聚合酶在ZMW孔中产生了DNA分子的多个副本,因此PacBio长读长测序系统可以通过交叉参照每个分子的副本来准确确定样品DNA的正确序列,从而最大程度地提高准确性,这被称为循环一致性测序(CCS)。
一旦SMRT测序芯片中所有ZMW孔的数据都被编译,就会生成一个主要的数据输出,可供研究人员进行下游分析。
Sequel IIe系统和更新的PacBio长读取测序平台都能测量聚合酶合并每个碱基的速度。然后,研究人员可以通过PacBio SMRT Link软件利用这些信息来确定碱基是否被甲基化,这对于表观遗传学研究非常关键。
PacBio HiFi 测序的优势有哪些?
HiFi测序技术在特定的研究或学科中可以带来许多好处,但以下四个特点使基因组学研究者无论在何种研究应用中都可以获得重要的优势。
长读长
HiFi测序提供15,000-20,000个碱基对或更长的读长,使研究者能够自信地组装参考级基因组和测序全长RNA转录本。
高准确性
通过循环一致性测序,HiFi测序生成99.9%准确性的reads。
均一的基因组覆盖率
通过消除PCR扩增所带来的偏差,HiFi测序使研究者能够分析其他技术通常难以获取的基因组区域(如难以测序的AT和GC富含区域、高度重复区域、长同源聚合物和回文序列)。
直接甲基化检测
通过直接从样本中提取DNA进行测序而不进行扩增,可以通过测量碱基的插入动力学来检测碱基修饰。这允许在单个实验中捕获序列和甲基化信息,无需额外的预处理步骤。
PacBio HiFi 测序有哪些应用?
随着其能够产生具有统一基因组覆盖率和本地甲基化检测的长而准确的读取数据的能力,HiFi测序在生物学的各个领域中有许多基因组分析应用程序。
HiFi测序应用简介:
单倍型分型
在寻找有利的作物特征或人类遗传性疾病的基因基础时,能够完全区分每个染色体的拷贝或单倍型(例如母系或父系遗传)之间的差异是至关重要的,这个过程被称为分型。HiFi测序的长距离能力降低了统计复杂性并增加了正确重建每个染色体拷贝的信心。在大多数情况下,HiFi测序消除了Trio或基于人口的分型技术的需要,这可能对研究团队有限的时间和资源构成重大压力。在最近一项有关脊髓性肌肉萎缩(SMA)基因组学的研究中,研究人员使用HiFi测序来识别形成非洲人群普遍的两个SMN1单倍型的共同两个拷贝SMN1等位基因。在一个有两个SMN1拷贝的个体中测试这两个单倍型为阳性,其无症状携带者的风险为88.5%,这比目前使用的SNP标记的1.7% -3.0%要高得多,展示了HiFi测序在为SMA开发单倍型分型筛查无症状携带者方面的潜在益处。
变异检测
HiFi测序reads跨越基因组大区域的能力使其能够在基因组范围内检测变异。极大的插入/删除事件的发生通常难以检测,这是HiFi测序的专业领域之一。同样,HiFi reads可以帮助研究人员检测串联重复和其他高度重复序列的区域,这些区域没有长且准确的reads无法正确分析。直到最近,全基因组关联研究(GWAS)一直难以解释复杂疾病的遗传性。然而,HiFi测序的变异检测能力增强了结构变异(50至1,000 bp或更多的基因组变异)的正确鉴定。这提高了研究人员将疾病表型与新基因和致病变异相关联的能力,使他们开始解决某些遗传疾病中缺失遗传性的问题。
基因组组装
HiFi测序是跨生命形式高度准确的基因组组装的首选技术,从细菌到人类,甚至巨型加利福尼亚红杉。HiFi数据的长度和准确性确保了单个序列之间足够的重叠,即使在高同源性区域,也能使组装软件(如hifiasm)重建基因组,减少错误和不确定区域的数量。利用这些优势,T2T联盟的科学家们使用HiFi测序来填补人类基因组中剩余的8%缺失信息,并在2022年3月呈现了世界上第一个完整的人类基因组组装。
表观遗传学研究
HiFi测序技术的一个优点是能够直接分析样品分子而无需扩增步骤,这使得研究人员可以获取碱基修饰信息(如甲基化)以及传统的碱基识别数据。这为研究人员在人类和其他生物的基因表达遗传性变化方面提供了一系列新的可能性。此外,由于这些甲基化数据与其他HiFi应用程序同时生成,因此研究人员可以在单倍型分区和变异调用的基因组上准确定位和研究表观遗传效应。在对这种甲基化检测能力的创造性利用中,研究基因治疗的科学家甚至开始使用HiFi甲基化检测技术来识别设计中的断裂和结构缺陷。
基因组学的未来需要长读长测序
随着科学家们不断寻找涉及从生态系统功能到人类健康的各种生物学问题的答案,需要越来越强大和复杂的基因组学工具变得越来越重要。对于以发现为导向的研究应用而言,长读长测序和特别是HiFi测序在基因组分析的几乎每个方面都具有巨大的潜力。因此,这些最先进的长读长测序技术引领基因组学探索新纪元的潜力,已经不再只是一步之遥,它已经到来。
参考文献:
M. Mahmoud, Y. Huang, K. Garimella, P. A. Audano, W. Wan, N. Prasad, R. E. Handsaker, S. Hall, A. Pionzio, M. C. Schatz, M. E. Talkowski, E. E. Eichler, S. E. Levy, F. J. Sedlazeck Utility of long-read sequencing for All of Us. bioRxiv [Preprint]. 2023.01.23.; doi: https://doi.org/10.1101/2023.01.23.525236