大多数高等生物都是二倍体,也就是说,每个细胞的细胞核中都携带个体基因组的两个副本,其中一个来自其母亲,另一个 对于基因组学界来说,准确地分离和组装这两个副本或单倍型是一大挑战,因为这两个副本非常相似(二者来自同一个物种),但又并不完全相同——如果它们相同,你的父母的容貌就会完全相同! 要想对这两种单倍型进行分离或定相,我们就需要在有关扩展基因组区域上获得这些微小差异的准确且连续的信息。 由于短读长测序无法提供此类信息,所以,过去的基因组组装通常表示为<20>单个</20>序列——即两个单倍型的折叠混合物,而实际上,生物体中并不存在这样的混合物。
Duan et al. (2022) 比较了不同的长读长测序技术在基因组组装中对两种单倍型进行定相的能力 在研究过程中,研究人员巧妙地利用了许多真菌的每个细胞都具有多个单倍体细胞核(即它们将一整套单倍体染色体整齐地装入了一个单独的细胞核)这一事实。
这种物理层面上的分离使得研究人员能够了解有关两种单倍型的事实,从而对不同测序技术的定相精度进行基准测试。在本文中,他们对 PacBio HiFi 测序和 Oxford Nanopore Technologies (ONT) 进行了评估。
所得结果截然不同。 下表总结了研究人员的发现:
最终结果显示,HiFi 组装采用 Hi-C 数据搭建而成,是一个精心策划的、具有参考级别质量的组装,它准确且全面地代表了该生物体的二 相比之下,作者指出,“ONT 组装中存在大量相位转换,妨碍了单倍型的准确分离。”
其他论文也报告过类似的发现。 例如,人类泛基因组参考联盟 (HPRC) 近期发表的一篇预印本论文中描述了对可自动组装高质量二倍体人类参考基因组的多种不同的测序技术和组装方法的广泛比较。观察结果表明,PacBio HiFi 测序的表现 在植物基因组学领域,HiFi 测序还可以解决更具挑战性的多倍体基因组的单倍体定相问题。在这里,我们仅以 四倍体玫瑰基因组 和八倍体草莓基因组为例予以说明。
长期以来,由于技术局限性,基因组学界不得不接受折叠基因组组装,这使得我们错过了重要的生物学见解,阻碍了科学发现,阻挡了我们了解二倍体基因组的真正复杂性和工作原理的道路。 PacBio 推出的 HiFi 测序可提供必要的、高度准确的长序列 reads 组合,让我们能够常规生成完全定相的二倍体基因组组装,反应了生物样本的真实基因组信息,揭示了生物体基因组学的全貌。