微生物是地球生命的基础。早在人类出现之前,它们就塑造了我们的星球,并继续塑造着我们的环境和生活。
了解微生物多样性不仅对保护和维持生态系统至关重要,而且对人类健康也至关重要。由于这些独特的生物通常难以在实验室中培养,因此许多微生物直到最近才被科学家发现。如今,像 Revio 系统这样的测序技术使微生物学家能够直接从环境中对微生物进行测序,而无需培养。
“在过去的几年里,我们经历了可用微生物基因组的又一次加速增长,但这一次的驱动因素是……宏基因组组装基因组 (The metagenome-assembled genome , MAG)的出现,这是由宏基因组学和相关生物信息学实现的。”1
MAG是微生物学领域的最新进展之一。在这里,我们将解释 MAG 的基础知识、它们的重要性以及如何创建和使用它们。
什么是 MAG(The metagenome-assembled genome )?
宏基因组组装基因组 (MAG) 是根据微生物组样本的群落级宏基因组数据构建的物种级微生物基因组。MAG 是编目微生物多样性的强大工具,尤其是对于不可培养的微生物。它们已成功用于识别新物种,以及研究土壤、水或人类肠道等遥远或复杂的环境。
为什么MAG很重要
众所周知,大多数原核生物(高达 99%)难以或不可能在实验室中培养,我们只能猜测隐藏在地球上最小的生物体中的微生物“暗物质”。2 现在,测序技术和生物信息学的进步正在帮助微生物学家克服这一“不可培养”障碍,采用独立于培养的方法来研究微生物多样性。
宏基因组组装的基因组使我们能够更好地了解这些不可培养的微生物种群,包括从人类肠道到活火山等环境中的微生物种群。3 我们对这些微生物的了解对人类健康、药物发现、环境修复、流行病学等都有重要意义。创建和应用 MAG 有可能大大加快生物多样性发现的速度。
MAG是如何创建的?
总的来说,宏基因组组装基因组是通过首先组装测序reads,然后将结果聚类来创建的。在组装阶段,测序reads被拼接在一起以创建连续的片段或重叠群。然后根据指示哪些重叠群属于同一基因组的模式将它们聚类或组织成组。每个生成的分类对应于一个MAG。1
这个两步过程听起来很简单,但实际上,在没有参考基因组的情况下将重叠群分类到基因组中是一项复杂的任务。宏基因组组装面临多项挑战,包括:
- 多种物种的存在
- 不均匀和未知的物种丰度
- 跨物种共享的保守基因组区域
- 物种内的菌株水平变异
高精度的长读长测序为宏基因组组装提供了巨大优势,即使在高度混合的样本中,其长度和精度也足以实现物种和菌株级别的分辨率。HiFi reads和宏基因组组装算法在帮助解决上述挑战方面取得了长足进步。
生成高质量MAG的最佳技术是什么?
长读长测序可以克服之前与宏基因组组装基因组相关的许多挑战。
使用传统的短读长测序,宏基因组组装产生的重叠群仍然只代表基因组的片段。相比之下,长读长测序可以从一个重叠群中获得一个MAG,因为读长很长,可以跨越整个微生物基因组。短读长重叠群很少产生整个基因组,它们严重依赖于分箱方法,这可能会引入进一步的错误。
多项研究表明,与短读长测序相比,PacBio HiFi 测序产生的总 MAG 数量更多,质量更高。4-10 这两种技术之间的区别本质上是基因组草图、易出错的 MAG 与参考质量 MAG 之间的区别。
图 1. 宏基因组组装。宏基因组组装和 MAG 质量的差异是测序技术决定的。短读长测序组装很少产生单重叠群完整基因组。产生的 MAG 由数十到数百个重叠群组成,代表基因组草图。HiFi reads的大小与使用短读长组装的许多重叠群相似(或更大),并克服了与重复区域和菌种内保守相关区域的挑战。HiFi MAG 通常包括单重叠群完整基因组和由少量重叠群组成的 MAG,这些重叠群可被视为参考质量基因组。
虽然很明显长读长比短读长更适合宏基因组组装,但哪种长读长技术表现最好?对于MAG,答案是显而易见的。与纳米孔测序相比,研究清楚地表明 HiFi 测序在宏基因组组装方面名列前茅。6,11 HiFi reads通常跨度高达10 – 25 kb,准确度高达 99.9%,使单连续完整基因组成为可能。
在一篇题为“使用长读长组装、分箱和合并方法从人类肠道微生物群中高度准确地组装宏基因组”的新预印本中,研究人员使用 HiFi 测序从汇集的人类肠道微生物组中生成宏基因组组装基因组。12 这项研究及其中的生物信息学方法是 PacBio 的 Dan Portik 与 Zymo Research、Phase Genomics 和 BioCollective 的科学家以及几位学术研究人员合作的成果。
“我们的研究表明,使用 HiFi 读取的宏基因组组装可以产生大量高度完整的 MAG,证实了先前研究的结果。” 12
在这项研究中,作者描述了 HiFi-MAG-Pipeline 的创建,这是一种用于宏基因组组装的新工作流程。他们还开发了一种新算法 pb-MAG-mirror,用于比较两种分箱方法产生的 MAG。HiFi-MAG-Pipeline 和所有 PacBio 宏基因组学流程均可在 Github 上找到。
“总体而言,我们发现使用 HiFi 测序、改进的宏基因组组装方法和互补的分箱策略对于快速对复杂微生物组中的微生物基因组进行分类非常有效。”12
明天的宏基因组学突破始于今天
高精度 HiFi 测序和新分析方法正在改变宏基因组学的格局,为研究人员提供更强大的工具来推动新发现。我们鼓励您亲自了解 HiFi 测序和 PacBio 微生物基因组学解决方案如何帮助您生成数百个高质量的宏基因组组装基因组,其中许多是单个连续群、环状 MAG。
对宏基因组组装基因组的现实和实际应用感到好奇?从这个网络研讨会开始,来自 PacBio 和 Zymo Research 的顶尖科学家将展示最先进的 HiFi 宏基因组测序解决方案,这些解决方案将使研究人员能够做出重要的发现,这些发现不仅影响深远,而且比以往任何时候都更精确、更可重复、更节省资源。
你准备好尝试HiFi测序技术了吗?
References:
- Setubal JC. 2021. Metagenome-assembled genomes: concepts, analogies, and challenges. Biophys Rev, 13, 905–909.
- Rinke C, Schwientek P, Sczyrba A, et al. 2013. Insights into the phylogeny and coding potential of microbial dark matter. Nature 499, 431–437.
- Wilkins LGE, Ettinger CL, Jospin G, et al. 2019. Metagenome-assembled genomes provide new insight into the microbial diversity of two thermal pools in Kamchatka, Russia. Sci Rep 9, 3059.
- Priest T, Orellana LH, Huettel B, Fuchs BM, and R Amann. 2021. Microbial metagenome-assembled genomes of the Fram Strait from short and long read sequencing platforms. PeerJ, 9: e11721.
- Gehrig JL, Portik DM, Driscoll MD, Jackson E, Chakraborty S, Gratalo D, Ashby M, and R Valladares. 2022. Finding the right fit: evaluation of short-read and long-read sequencing approaches to maximize the utility of clinical microbiome data. Microbial Genomics, 8: 000794.
- Meslier V, Quinquis B, Da Silva K, Plaza Onate F, Pons N, Roume H, Podar M, and M Almeida. 2022. Benchmarking second and third-generation sequencing platforms for microbial metagenomics. Scientific Data, 9: 694.
- Eisenhofer R, Nesme J, Santos-Bay L, Koziol A, Sorenson SJ, Alberdi A, and O Aizpurua. 2023. A comparison of short-read, HiFi long-read and hybrid strategies for genome-resolved metagenomics. bioRxiv, doi:10.1101/2023.10.04.560907
- Orellana LH, Kruger K, Sidhu C, and R Amann. 2023. Comparing genomes recovered from time-series metagenomes using long- and short-read sequencing technologies. Microbiome, 11: 105.
- Tao Y, Xun F, Zhao C, Mao Z, Li B, Xing P, and QL Wu. 2023. Improved assembly of metagenome-assembled genomes and viruses in Tibetan saline lake sediment by HiFi metagenomic sequencing. Microbiology Spectrum, 11: e03328–22.
- Zhang Z, Yang C, Veldsman WP, Fang X, and L Zhang. 2023. Benchmarking genome assembly methods on metagenomic sequencing data. Briefings in Bioinformatics, 24: 1–17.
- Sereika M, Kirkegaard RH, Karst SM, Michaelsen TY, Sorensen EA, Wollenberg RD, and M Albertsen. 2022. Oxford Nanopore R10.4 long-read sequencing enables the generation of near-finished bacterial genomes from pure cultures and metagenomes without short-read or reference polishing. Nature Methods, 19: 823–826.
- Portik DM, Feng X, Benoit G, et al. 2024. Highly accurate metagenome-assembled genomes from human gut microbiota using long-read assembly, binning, and consolidation methods. bioRxiv, 05.10.593587