众所周知,植物基因组组装难以实现。 原因除体量较大且复杂外,还包括它们具有不同程度的倍性。 事实上,最著名的模式物种之一拟南芥的基因组直到 2000 年才得以发表。
幸运的是,长读长测序技术和新的计算工具的发展使几乎任何物种的测序和组装成为可能。 新的植物基因组正在迅速进入基因库,迄今为止已收录 800 多个。 总体而言,在过去三年中共计完成了 74% 的陆地植物基因组组装。
但是,未来之路仍然任重道远。 HiFi 测序技术有助于克服分类多样性和地理代表性方面的差异。
密歇根植物科学家 Rose Marks 和 Robert VanBuren 以及 Washington State University 的共同作者 Scott Hotaling 和 Brigham Young University 的 Paul B Frandsen 在 Nature Plants 上发表了一篇评论,确定了重点物种的本土范围与其研究人员的国家隶属关系之间的许多分类缺口和脱节。
第一个经历基因组测序和组装的陆地植物是具有小二倍体基因组的模型或经济上重要的作物物种。 不必为此感到诧异,因为直到最近,技术限制问题的存在使得组装高质量级多倍体基因组仍旧十分困难。
因此,HiFi 测序的作用便因此显现。
“随着长读长测序的改进,对大型多倍体植物基因组进行测序和组装变得更加可行,”作者指出。
正如加利福尼亚巨型红杉的测序 和其 27 Gb 巨型基因组的组装所证实的那样,这项在几年前被认为“艰巨”的工作,现在被一小群科学家利用业余时间在几周内就完成了。
798 种具有公开可用基因组组装的陆地植物物种的组装连续性(按提交日期)。 图中的点按使用的测序技术类型标记颜色,并按该物种可用的组装数量按比例缩放。
气候变化问题日益严峻,保护气候迫在眉睫。组装本土和野生物种无疑是当务之急。
正如 PacBio 首席科学官 Jonas Korlach 在一篇博文中指出的那样,更多的生物多样性意味着更有弹性的生态系统,每个物种——包括我们人类,都将从此类研究中受益。
Marks 等人还指出,我们需要在野生物种消失之前从它们身上了解我们能做什么;在过去的 100 年里,植物灭绝的数量已经增加了 60%,即使在最乐观的情况下,预计这种情况仍将持续。
“我们鼓励研究人员利用新的基因组技术,这些技术有助于在野生物种消失之前,探索、分类和挖掘野生物种所含信息的巨大多样性。”
关注未来发现的缺口
尽管近年来对植物基因组学的理解有了很大进步,但仍存在许多分类缺口,这也为探索提供了机遇。 一些需要注意的重要分类缺口如下:
在已描述的 137 种陆地植物目中,超半数 (76) 缺乏具有代表性的基因组组装。
- 基因组组装可用于 135 种驯化、127 种栽培、120 种天然商品和 12 种野生物种。 剩下的 404 个基因组组装来自野生物种;其中 77 种为作物的野生近缘种。
- 在基于物种丰富度的基因组组装数据库中,六种陆地植物目在统计上代表性过度,包括在农业和经济上重要的十字花目、葫芦目、壳斗目、锦葵目、蔷薇目和茄目。
- 根据物种丰富度,四种陆地植物目的基因组组装明显少于预期: 天门冬目、菊目、龙胆目和水龙骨目。
- 苔藓植物的代表性很差,只有 8 种苔藓、3 种地钱和 3 种金缕梅。
“虽然具有基因组组装的人类相关物种的数量在很大程度上与野生物种相当,但这种等价性也反映了一种极端偏好,”作者指出。 “野生植物(约 350,000 种)比驯化物种(约 1,200-2,000 种)多得多,这表明野生植物代表了尚未开发的基因组信息库。”
虽然许多植物基因组组装是针对非洲和南美洲本土或经济上重要的物种,但它们的测序和组装工作很可能是由其他地方的研究人员完成的。
事实上,研究人员发现了极大的地理差异,约 77% 的基因组组装来源于少数几个主要来自北半球的富裕国家: 中国(235 个组装)、美国(212 个组装)和欧洲(168 个组装)。 大洋洲、南美洲和非洲的贡献则屈指可数,研究团队相应地仅发布了 40、9 和 1 个组装。
他们估计,所有驯化作物中有 56% 的基因组在其原产地之外进行了测序,其中只有 13% 包括原产地内的合作者。
“这表明全球基因组学严重失衡,”作者说。
当地利益相关者的投入减少,意味着基因组组装实际上可能不代表此地种植的种质或这些地区的保护优先事项的可能性增加。
作者写道:“我们鼓励所有植物科学家努力支持当地利益相关者,将本土知识融入到他们的工作中,并鼓励其投入一定的成本建立系统和专业知识,以便在基因组资源自然发生的地方开展工作。”
如何在未来填补缺口
作者建议,虽然其中许多缺口可归因于科学和经济财富的历史差异,但技术发展有助于实现获取和参与的民主化。
“作者写道:“测序成本下降、分析工具可用性的扩大以及科学界联系日益紧密,这些都为改进现有组装、填补采样缺口和增强全球植物基因组学研究界的能力提供了关键机会。”
在数据质量的差异方面,作者还呼吁植物基因组科学家采用长读长测序技术,并尽可能利用此技术来生成新的组装。
“长读长测序技术的应用已有实施,由于短读长数据与长读长数据生成的组装之间存在巨大质量差异,因此十分有必要继续采用长读长测序技术,”他们写道。
您是否有兴趣阅读有关 长读长测序 和 HiFi reads 的更多信息?
查看我们的 动植物 页面,了解更多关于它们如何有助于获得昆虫生物学、作物改良、动物健康和育种等方面的信息。