Menu
2020年05月21日  |  测序 101

测序 101:了解 DNA 测序的准确率

对于那些在研究中使用 DNA 测序但并不精通其背后技术的科学家来说,很难确定测序结果的准确率,也很难比较不同测序平台的准确率。此外,不仅不同技术之间存在准确率差异,由于基因组的某些片段很难读取,因此不同的基因组区域也存在准确率差异。

了解 DNA 测序的准确率在区分重要的生物学信息和测序错误方面至关重要。

测序准确率体现在哪些方面?

How to get HiFi reads
通过组合 DNA 分子 (subreads) 的多次连续观察结果生成 HiFi reads,从而将单个 HiFi reads 的准确度提高至超过 99%。

DNA 测序技术的准确率主要体现在两方面:read 准确率和共识准确率。 读取准确率是 DNA 测序技术中单次测量 (read) 的固有错误率。

典型的读取准确率范围为从传统长读长测序的约 90% 到短读长测序和 HiFi reads 99%。

另一方面,共识准确率通过结合数据集中多条 reads 的信息来确定,从而消除了单条 read 中的任何随机错误。

更深的覆盖度,意味着有更多的 reads 来生成共有序列,这通常会提高结果的准确度。

然而,利用多条 read 检出共有序列仍有局限性。 共有序列计算是一个复杂且计算成本高昂的过程,它无法克服系统误差。 如果一个测序平台总是犯同样的错误,那么该错误则无法通过增加测序覆盖度来避免。

为了解决这个问题,通常使用高精度的短读长测序数据来“打磨”具有系统性误差的长读长测序数据。

然而,由于它们的读长不同,短读长数据不能始终明确地比对到长读长 reads 上,从而限制了它们提高准确度的能力。

总体而言,通过从没有系统偏差的高精度 HiFi reads 开始,可以改善共有序列,并且大大简化运算过程。

HiFi sequencing of STRC gene
HiFi reads 的准确度可检出单核苷酸变异,同时提高了可比对性,并实现了无系统偏差的定相。STRC gene alignments from Genome in a Bottle (GIAB), HG002_NA24385_son.
(IGV settings) 来自瓶中基因组 (GIAB),HG002_NA24385_son 的 STRC 基因比对。(IGV 设置)

准确率如何影响测序数据的有效性?

覆盖均匀性
众所周知,某些基因组区域可能比其他区域更难测序。着丝粒和端粒区域由于包含高度重复的序列,所以非常难测序。

富含 AT 或 GC 的区域测序同样困难,因为它们对某些平台所需的扩增方案响应不佳。

回文序列或发夹结构难以变性,因此使用包含变性步骤的测序工具对这类区域进行测序时也极具挑战性。

HiFi reads generated with SMRT sequencing technology
通过组合 DNA 分子 (subreads) 的多次连续观察结果生成 HiFi reads,从而将单个 HiFi reads 的准确度提高至超过 99%。

许多科学家通过选择不需要扩增或变性的单分子测序方法来避免这些问题,例如 PacBio 的 SMRT 测序技术。

由于 SMRT 测序可以处理难以读取的区域,无论序列构成如何,都能均一地开展测序,所以即使在其他平台难以测序的区域,也能生成准确的结果。Selecting a platform without systematic bias, like the Sequel II system, is important to producing the most accurate sequence data.
选择一款没有系统偏差的平台(如 Sequel II 系统)对于产生准确的序列数据非常重要。

选择一款没有系统偏差的平台(如 Sequel II 系统)对于产生准确的序列数据非常重要。

可比对性
基因组组装的准确率比每个碱基的准确率更为重要。 即使是完美的 read,如果在组装中没有正确排序和定向,也会导致准确率低。组装过程中 read 放在何处称为可比对性。

仅包含一个大结构元件或由高度重复的序列组成的 read 可能很难比对,会模糊地定位到参考基因组中的许多不同位置。

这就是短读长真正的局限所在;由于其读长短,更有可能无法包含足够的独特序列数据来将其锚定到基因组中的正确位置。

而 HiFi reads 则具有数千个 DNA 碱基的长读长,几乎始终包含独特的侧翼序列,可在组装过程中用于准确定位。

Repetitive elements — HiFi reads
HiFi reads 可跨越重复序列,提高可比对性。

定相
在研究二倍体或多倍体基因组时,定相意味着分离每个染色体的不同拷贝(例如,二倍体的母本和父本),被称为单倍型。

如果有足够高的准确率,可以将基因组中每个位点的核苷酸一致性与参考序列进行比较以识别 SNV,其中杂合位点表明同源染色体对之间存在序列差异。

而传统易出错的低精度长读长在这一点上有所限制——由于错误率较高,因此无法确定参考基因组和数据集之间的不一致是由变异还是测序错误导致的。

Phasing
定相包括分离每个染色体的母本和父本遗传拷贝。

获取定相信息的另一种方法是对需要进行定相的基因组的个体亲本进行测序。

然而,在许多难以获取亲本的野生物种中,使用高精度的长读长测序方法(比如 HiFi 测序)会更简单。

也可以使用计算方法(如 Nighthawk)或使用群体单倍型频率信息来推断定相。

总体而言,定相的基因组或变异检出比单倍型平铺基因组的质量更高,因为它们提供等位基因信息,这对于人类疾病研究、作物改良、进化分析等都十分重要。

HiFi reads 的准确度以及数千碱基的读长足以检测各种 SNV,产生更大的单倍型定相模块。

随着科学家分析越来越多的基因组数据,序列准确度的作用将会变得更加重要。

HiFi reads offer the benefits of high accuracy equivalent to short-read sequencing data, but with the length necessary for complex genome assemblies and phasing of variants across large swaths of the genome.

咨询专家

如果您有疑问、需要查看订单状态或想要购买仪器,我们随时乐意提供帮助。

姓名(Required)
这个字段是用于验证目的,应该保持不变。

在本网页上注册,即表示您同意,并同意 PacBio 根据我们的隐私政策收集和使用该信息.