Menu
2022年02月15日  |  动植物生物学

实践进展第三部分: 动物基因组学

 

owl

 

在 2022 年 PAGBio 日进入尾声时,我们还需要考虑基因组自然历史的一个关键部分——动物基因组学 

正如我们之前的文章所述,很明显我们已经进入了基因组自然历史的时代  然而,我们的全面蓝图规划(即每个物种都具有相应的参考级别质量基因组组装)尚未完成 

我们有何实践进展,绘制完整图景最需要什么 

最近,由 Brigham Young University Paul B Frandsen  和华盛顿州立大学的研究人员 Joanna Kelley  Scott Hotaling  PNAS 上发表了一篇观点文章,回顾了过去 25 年的动物遗传学研究,并重点介绍了基因组代表性差异,包括脊椎动物的系统代表性过度和节肢动物的代表性不足

自 1998 年以来,从第一个发表的动物基因组序列——9700 万碱基对 (bp) (Mb) 秀丽隐杆线虫——到目前 GenBank 中跨越 24 个门的近 3,300 种独特动物物种,我们对基因组如何变化和塑造地球生物多样性的了解有了极大的提升 

而且这种势头正在增加,多个测序联盟正朝着对所有动物基因组测序的共同目标而努力,包括 Vertebrate Genomes Project(脊椎动物基因组计划)、Bird10K 计划、Bat1K 计划、i5K 计划、Earth BioGenome Project(地球生物基因组计划)和 Darwin Tree of Life Project(达尔文生命之树计划。

不过,未来之路任重道远  正如作者指出的那样,目前在动物界被描述的大约 166 万种物种中,目前只有 0.2% 的物种进行了核基因组测序  然而,测序的速度正在加快,一年前的平均速度为每天向 GenBank 库提交 0.52 个物种组装,如今的速度比过去增加了 8 倍,达到了每天 4.07 个。 

如果保持最新速度,到 3136 年才能完成对目前所有描述的动物的基因组组装 为了在 2031 年实现这一目标,平均每年需要对 165,614 个新的动物基因组进行测序和组装(比最近一年的比率快 约 112 倍),作者表示。

关注缺口 

在庆祝基因组发现取得进展的同时,我们还必须承认存在的差异,以便我们能够为未来做出计划 目前,有 685 条鳍鱼的基因组组装可用,但线虫门却空空如也,线虫门是一种 2,000 种寄生蠕虫进化枝,它们的存在可以显著改变整个河流生态系统的能量平衡。 

分类缺口有哪些  本文重点介绍了以下几点 

  • 代表 24 个门、64 个纲和 258 个目的 3,278 个物种的基因组组装  总体而言,14 个群体的代表性不足,17 个群体的代表性符合预期,28 个群体的代表性过度 
  • 此群体中脊索动物门(包括所有脊椎动物)有 1,770 个组装(占所有组装的 54%),但脊索动物仅占动物物种的 3.9%。 
  • 相反,包含 78.5% 的动物物种的群体中节肢动物有 1,115 个组装(占数据集的 34%)。 
  • 十个门没有公开可用的基因组序列 

此外,作者还提到了被忽视的独特生物学,并作出警示,鼓励研究人员采样多样化的测序方式进行测序 

从生物医学和人类进化的角度来看,这种[有利于脊椎动物的]偏好是合理的,因为人类是脊椎动物,”作者写道  “然而,从基础研究的角度来看,特别是因为其涉及基因组自然历史和对所有动物基因组进行测序的总体目标,因此需要在分类学上采样多样化的测序方式进行测序。” 

该文章还指出了测序物种的地理起源的差异,以及提交差异的研究人员 北美、欧洲和亚洲的机构共占所有组装的 95.5%,全部动物基因组组装中有近 70% 仅由以下三个国家的研究人员提交 美国 (n=1,275)、中国 (n=676) 和瑞士 (n=317)。 

有趣的是,北美机构的研究人员贡献了最多的昆虫和哺乳动物组装,欧洲研究人员贡献了最多的鱼类组装,而亚洲研究人员则贡献了最多的鸟类组装。 

与采样偏好如何在其他学科中产生对自然世界的理解偏差类似,对特定生态区、栖息地或其他分类的偏好也会影响基因组见解,”文中写道 

作者呼吁提交更多的地理代表,尤其是来自全球大部分生物多样性所在的南半球 

每个人,包括北半球的研究人员,都应该加深与南半球同行的合作,同时帮助建立本土的新标本采集、储存和测序能力。” 

animal plot graph
根据 GenBank 发布日期绘制的动物基因组连续性与可用性时间线 

万物皆灵且美 

作者指出,从数据集中最小的基因组组装 3 2.5 Mb 番茄刺皮瘿螨,到最大(近 1,000 倍)的 32.4 Gb 美西螈和 34.6 Gb 澳大利亚肺鱼,群体间的连续性也有很大差异 

原始人和鸟类组装是最连续的,平均 contig N50 分别为 24.2 Mb 和 1.4 Mb。  另一方面,水母和相关物种(刺胞动物门)也为我们展示了一些最不连续的基因组组装,平均 Contig N50 为 0.18 Mb。 

出于生物学发现的目的,并非所有基因组组装都是相同的,”作者写道 

随着长读长测序技术的成熟,生成的组装的质量也在不断提升  作者认为,展望未来,基因组组装的质量可能是决定其长期价值的最重要因素,他们呼吁,未来的组装应与 Earth BioGenome Project(地球生物基因组计划)提出的指导方针以及 Vertebrate Genomes Project(脊椎动物基因组计划)和 Darwin Tree of Life(达尔文生命之树)计划贡献的“特殊”遗传资源相呼应 

组装应达到最低水平的连续性(例如,contig N50>1 Mb)和准确度,才能被视为可能不需要针对大多数应用进行更新的参考,”他们说 


您是否有兴趣阅读有关长读长测序和 HiFi reads 的更多信息  查看我们的 动植物页面,了解更多关于它们如何有助于获得昆虫生物学、作物改良、动物健康和育种等方面的信息

实践进展第一部分: 昆虫基因组学
实践进展第二部分: 植物基因组学

咨询专家

如果您有疑问、需要查看订单状态或想要购买仪器,我们随时乐意提供帮助。

姓名(Required)
这个字段是用于验证目的,应该保持不变。

在本网页上注册,即表示您同意,并同意 PacBio 根据我们的隐私政策收集和使用该信息.