自 2000 年第一个昆虫基因组组装(黑腹果蝇)发表以来,昆虫基因组学研究发生了很大变化。 随着本周2022 年 PAGBio 日开放注册,我们认为当下便是回顾实践进展的最佳时机。
截止 2020 年 11 月,601 种不同的昆虫物种(代表 20 个目和不同大小,从微型的 99 Mb 南极蠓到巨型的 6.5 Gb 亚洲飞蝗)在 GenBank 中都提供有核基因组组装。
而现在,每隔 2-3 天,一个新的昆虫物种的基因组组装就会存入 GenBank。 2019 至 2020 年间,已收录的最佳可得昆虫组装增加了近 50% (n=292)。 这些新组装的连续性明显比几年前更好,部分原因是长读长组装的出现,其频率从 2011 至 2012 年所有组装的 0% 上升到 2019 至 2020 年的 36.1%。
正如 Washington State University(华盛顿州立大学)博士后 Scott Hotaling 在他对 20 年的昆虫研究综述中提到的那样,“我们已经进入了昆虫基因组生物学的新时代。”
他说,这在很大程度上归功于快速发展的测序与分析技术,这些技术为不断扩大的研究人员群体带来了基因组测序的强大功能。
“最值得注意的是长读长测序的影响;包含长读长的组装比不包含长读长的组装的连续性高出>约 48 倍。”
在 Sequel II 系统上添加的低和超低 DNA 起始量工作流程通过助力对最小物种的测序,进一步使昆虫学家受益。 仅需 5 ng 基因组 DNA,就可以从单个昆虫中创建高质量的基因组,而无需耗时的近亲繁殖或合并策略。
扩大范围
该综述发表在《Genome Biology and Evolution》杂志上,共同作者为 Brigham Young University(杨百翰大学)的 Paul B Frandsen LOEWE Centre for Translational Biodiversity Genomics (LOEWE TBG) 和 Smithsonian Institute,文中还呼吁同行共同努力使昆虫基因组记录更加完整。
研究人员指出,尽管 600 多个分类群可能看似令人震撼,但其实存在许多分类缺口。
“相对于陆地昆虫,水生昆虫群体的代表性仍旧不足。 并且一些目(例如,双翅目)所代表的基因组组装远远超过了它们的物种多样性本身所保证的情况(可能反映了它们内部的模式生物),但许多目仍然没有基因组代表。”文中写道。
按数量分析:
● 相对于物种的丰富度,基因组研究偏向于四个目:双翅目、膜翅目、弹尾目和竹节虫目。
● 鞘翅目有 387,100 个被描述的物种,其代表性明显不足(41 个组装,而预期为>约 228 个)
● 6 个目仅由一个基因组组装代表,11 个目没有公开可用的组装。
作者呼吁像 i5K 倡议 这样加强独立研究小组和联盟之间的整合,对 5,000 种不同节肢动物的基因组进行测序,以及进行战略抽样填补分类缺口,并为目标问题生成数据,同时扩展基因注释。
截至 2019 年,只有 40% 的昆虫基因组组装在 GenBank 中有相应的基因注释;作者认为,扩展和完善昆虫基因注释的可用性将相应推动分类比较规模的扩大,这对于许多分析来说都是可以实现的。
HiFi 测序可以快速组装复杂的生物体,并且可以帮助科学家建立更加多样化的进化枝数据集。
“在公共存储库中现已有代表 600 多个分类群和约 480 Myr 进化的基因组组装可供使用,昆虫基因组研究的能力和前景从未如此强大。”Hotaling 总结道。
“我们赞同脊椎动物基因组计划的发现,也认为长读长组装比短读长方法的连续性更好,并且建议昆虫基因组科学家接受这些技术。”
请持续关注,昆虫基因组学领域正在迅速扩展,HiFi reads 在建立代表节肢动物世界真实多样性的基因组数据方面发挥着关键作用。