一年前,我们前往 Stanford 采集巨大的加利福尼亚红杉 (Sequoia sempervirens) 样本,旨在组装其巨大的 27 Gb 基因组。
几年前还被视为巨量的工作被几个人仅用了几周的业余时间就轻松完成,功臣包括:Emily Hatas 、Greg Young 、Michelle Vierra 和 Greg Concepcion 。
正如本篇博文所述,团队仅用了 17 天就完成了 22 倍覆盖度的组装—— 4 天用于样本制备,7 天用于测序,6 天用于组装。
在多占用了一些时间且有足够的 HiFi 文库支持的情况下,团队成员开始进行更多的测序,以创建一个更好的组装,最终得到的覆盖度为 33 倍,contig N50 为 3.8 Mb。
为了更进一步探索这一基因组,Iso-Seq 分析专家 Elizabeth Tseng 深入研究来自红杉针叶的转录本序列。
来自 2 个 Sequel II SMRT Cell(总共 530 万条全长 reads)的结果被比对到 hifiasm v12 组装的 PacBio 红杉基因组,获得 336,853 条高质量 Iso-Seq 转录本,有 69,198 个比对的位点和 205,792 条独特全长转录本。
比对的转录本长度在 50 bp 到 14.2 kb 之间,平均长度为 2.9 kb。 大部分位点有 1 至 5 个异构体,许多显示了复杂的可变剪切模式,突出了全长转录本测序的优异能力。
“我发现 Iso-Seq 数据有好几个令人激动的方面,”Tseng 在一篇关于该工作的媒体专栏中写道。 “一方面是看到可变剪切的能力。 另一方面则是直接从这些序列预测 ORF 的能力。”
这项练习也是对 IsoPhase 异构体定相方法的良好测试,该方法最初是由 Tseng 专为二倍体的玉米基因组开发的。
答案是肯定的。
通过将定相的基因组信息与定相的转录组数据相结合,Tseng 得以鉴定出 5 个截然不同的等位基因,以及很可能同源的基因
最后,Tseng 利用 Iso-Seq 数据以及另一个工具 Cogent 评估了红杉基因组组装的质量。“Iso-Seq 对 PacBio 基因组的高可比对性表明,基因组组装在编码区域非常完整,”她说。 “遗漏的基因或者难以组装的基因区域可通过 Iso-Seq 转录本进行评估。”
希望进一步了解红杉 Iso-Seq 分析? 即刻探索! 我们发布了 Iso-Seq 数据集,包括转录本序列、GFF 文件、BLASTN 匹配、IsoPhase 和 Cogent 结果。
我们欢迎社区使用这一数据集进行研究、工具开发并给我们反馈。红杉基因组的数据和更新的基因组组装现已公开,可点击此处 获取。