信訪舉報 在線留言| 聯系我們| 中國科學院

細胞器基因組組裝利器——GetOrganelle正式在線發表

昆明植物研究所 金建軍 2020-09-12

真核生物細胞器基因組主要包括線粒體和質體(包括葉綠體、白色體等)所包含的全部DNA分子,是細胞質遺傳的主要載體。在動植物和真菌的單個細胞內,往往有多個(甚至成千上萬個)細胞器基因組單元的拷貝,這使得利用低覆蓋度的全基因組測序數據組裝得到完整的細胞器基因組成爲可能。隨著DNA高通量測序技術的發展,測序成本急劇下降,低覆蓋度的全基因組測序數據得以大規模産生,如何快速、准確地組裝細胞器基因組對後續生物學問題的研究至關重要。細胞器基因組序列在研究真核生物系統發育、譜系地理、雜交和物種鑒定等方面具有重要價值。1986Shinozaki等破解煙草葉綠體基因組以來,特別是近年來二代測序技術的快速發展,質體系統發育基因組已成爲解析植物系統發育關系不可或缺的重要手段之一。

中國科學院昆明植物研究所植物多样性与基因组学大团队李德铢研究组和伊廷双研究组多年来关注基于植物质体基因组的系统发育、基因组结构演化和DNA条形码研究,逐步发展了基于质体基因组数据分析的一套完善的研究体系,并取得了一系列重要进展(Ma et al., 2014. Systematic BiologyZhang et al., 2017. New PhytologistLi et al., 2019. Nature PlantsZhang et al., 2020. Systematic Biology)。该团队重视质体基因组分析方法的开发和应用,已开发一个全新的质体基因组注释软件PGA (Qu et al., 2019, Plant Methods)並得到廣泛應用,並成爲ESI高引用和熱點論文。

近來针对已有细胞器基因组组装软件组装流程存在的低效率、低成功率、低准确度,以及需要大量人工介入等问题,该团队联合中國科學院西双版纳热带植物园和美国宾州州立大学合作团队开发了一套全新的细胞器基因组组装工具GetOrganelle,实现了大规模细胞器基因组快速、准确地组装。GetOrganelle的核心流程包括:1)通过“种子”序列获得部分目标相关reads,2)延伸reads获得所有目标相关reads,3)对reads进行从头组装得到组装图形,4)过滤组装图形,5)识别细胞器组分并自动导出所有可能的细胞器基因组结构(图1)。GetOrganelle在“baiting and iterative mapping”的基础上提出了大大提高延伸效率的reads预分群算法;提出了适用于细胞器基因组的估算contigs拷贝数的算法,该算法能综合组装图信息和测序深度信息(图2)。基于50个植物物种的公开reads数据集的测试显示,在计算资源消耗略高的情况下,GetOrganelle的默认参数的完整成环率(78%)远高于目前使用最广泛的工具NOVOPlasty的最好参数的结果(16%);而资源消耗接近甚至更低的情况下,GetOrganelle仍然能保持远高于NOVOPlasty的成环率。并且NOVOPlasty在K=23和K=31的情况下约20%~25%的假阳性率(错误结果谎称完整成环)(图3)。在不同参数的测试下,GetOrganelle的结果一致性优于NOVOPlasty。Read mapping进一步显示,GetOrganelle的结果准确性不仅高于NOVOPlasty,也高于基于相同reads数据的已发表结果(图4),并发现了部分已发表结果的明显组装错误。在56个动物数据和50个真菌数据测试中,GetOrganelle也获得了比NOVOPlasty更高的线粒体基因召回率。值得一提的是,在Freudenthal et al. (2020) 針對主流葉綠體基因組組裝工具(包括chloroExtractor、Fast-Plast、GetOrganelle、IOGA、NOVOPlasty、org.ASM等)的基准檢測文章中,GetOrganelle也獲得了遠高于其他工具的成環率和准確性,並被推薦作爲默認(組裝工具)選項。

2020年9月10日,该研究成果以 “GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes”为题正式在线发表于国际遗传学/生物技术权威期刊Genome Biology杂志上(https://doi.org/10.1186/s13059-020-02154-5)。 昆明植物研究所金建軍博士和西双版纳热带植物园郁文彬博士为该论文的并列第一作者,李德铢研究员和伊廷双研究员为通讯作者。该研究得到中國科學院战略性先导科技专项(XDB31000000)、国家自然基金重点国际(地区)合作研究项目(No.31720103903)、中國科學院大科学装置开放研究项目(2017-LSFGBOWS-02)和中国西南野生生物种质资源库“交叉合作团队”项目的资助。 

GetOrganelle的源代碼于2016年4月在GitHub第一次上線。2018年5月,報道GetOrganelle的第一版預印稿在bioRxiv上線。2020年3月,GetOrganelle快裝版在Bioconda上線。截止發稿前,GetOrganelle的預印稿在谷歌學術搜索(Google Scholar)中已被引用超過230次。此外,GetOrganelle的動物meta-mitogenomics測試版已經上線,利用三代測序數據進行組裝的功能正在開發中,該工具的擴展新功能值得期待。

图1. GetOrganelle的工作流程图

 

圖2. GetOrganelle的contigs拷貝數估算及基因組結構導出算法示例

圖3. GetOrganelle和NOVOPlasty分別在50個公開植物數據上的四組不同參數的測試結果

图4. 基于Read mapping用50种植物的公开数据,评估并比较GetOrganelle组装质量、NOVOPlasty组装质量的和已发表的质体基因组的组装质量,统计三者在组装质量上最好(最多reads数、最高深度或者最低错误率)的样本个数。

地区:北京市  广东省  山东省  江苏省  河南省  上海市  河北省  浙江省  香港特别行政区  陕西省  湖南省  重庆市  福建省  天津市  云南省  四川省  广西壮族自治区  安徽省  海南省  江西省  湖北省  山西省  辽宁省  台湾省  黑龙江  内蒙古自治区  澳门特别行政区  贵州省  甘肃省  青海省  新疆维吾尔自治区  西藏区  吉林省  宁夏回族自治区
上海 北京 沈阳 深圳 广州 天津 佛山 杭州 青岛 苏州 香港 太原 呼和浩特 石家庄 长春 南京 合肥 南昌 福州 南宁 武汉 长沙 济南 郑州 成都 西安 兰州 银川 乌鲁木齐 西宁 拉萨 昆明 贵阳 海口 台北 澳门