艾蒿染色体水平基因组-文献精读111

embedded/2025/2/12 20:15:51/
A chromosome-scale genome assembly of Artemisia argyi reveals unbiased subgenome evolution and key contributions of gene duplication to volatile terpenoid diversity

一项关于艾蒿(Artemisia argyi)的染色体尺度基因组组装揭示了无偏的亚基因组进化及基因复制对挥发性萜烯多样性的关键贡献

摘要

艾(Artemisia argyi Lévl. et Vant.),一种具有浓烈香气的多年生艾蒿类植物,在中国及许多亚洲国家的传统医学中广泛应用。在这项研究中,我们呈现了艾的染色体尺度基因组组装,组装大小为3.89 Gb,包含17条假染色体。系统发育和比较基因组分析表明,艾在与青蒿(Artemisia annua)分化后经历了一次近期的谱系特异性全基因组重复(WGD)事件,导致形成了两个亚基因组。我们解码了艾的二倍体祖先基因组,并观察到无偏的亚基因组进化。近期的WGD导致艾基因组中大量基因重复。通过各种类型的基因重复,萜烯合酶(TPS)基因家族的扩展可能对艾挥发性萜烯的多样性做出了重要贡献。特别是,我们在扩展的TPS基因家族中识别到了一个典型的germacreneD合酶基因簇。艾中germacrenes化合物、(+)-薄荷醇和(+)-樟脑的整个生物合成途径得到了阐明。此外,艾中amorpha-4,11-diene合酶(ADS)基因的部分缺失以及ADS同源基因功能丧失可能导致其未能产生青蒿素。我们的研究为艾蒿属植物的基因组进化提供了新的见解,并为进一步提高这一重要药用植物的质量奠定了基础。

图1. 艾形态、基因组特征及同源性图谱

(A) 田间的艾。 (B) 艾花和种子的形态。1, 多花序;2, 花序;3, 双性花;4, 双性花顶部;5, 双性花的雌蕊;6, 同花柱雄蕊;7, 雄花;8, 花粉;9, 种子。 (C) 艾地下水平根茎的形态。 (D) 艾基因组特征的分布。圆圈中的连接线表示基因组中同源序列的同线性关系。

多倍体化现象,亦称全基因组重复(WGD),是被认为是被子植物基因组进化的最强驱动因素之一,有助于物种的分化及植物有价值性状的出现(Eric Schranz et al., 2012;Soltis 和 Soltis, 2016)。古代植物的多倍体化可产生不同的亚基因组。基因在亚基因组中不均等的丧失(即偏向性分裂)是常见现象,丧失基因较少的亚基因组往往表现出较高的表达量,这被称为基因组优势(Liang 和 Schnable, 2018)。在古老的自体多倍体中,基因组的分裂和基因组优势表现出无偏的模式,而在大多数古老的异源四倍体中则检测到基因丧失和基因组优势的偏向性(Garsmeur et al., 2014)。此外,全基因组重复最初会导致染色体数量翻倍,从而产生大量重复基因(Van de Peer et al., 2009;Panchy et al., 2016)。先前的研究已识别出许多与植物特化代谢途径相关的基因,这些基因源自基因重复(Aubourg et al., 2002;Ober, 2005)。

艾蒿属是菊科中最具多样性的属之一,包含500多种广泛分布在亚洲、欧洲和北美等地(Bora 和 Sharma, 2011)。由于其丰富和多样的生物活性成分,艾蒿属一直是许多研究的重点,具有潜在的生态和经济价值(Ivănescu et al., 2021;Kshirsagar 和 Rao, 2021)。尽管艾蒿属的基因组大小和染色体倍性各异,但基本染色体数通常为八或九(Inceer 和 Hayirlioglu-Ayaz, 2007;Pellicer et al., 2007)。我们的研究(补充图1)及先前的研究揭示了艾的核型为2n = 34(Pellicer et al., 2010),这一结果与通常的基本染色体数不一致。2n = 34这一独特的核型提示在艾中可能发生了物种特异性的多倍体化事件,导致亚基因组的存在。然而,目前关于艾进化模式的数据仍然有限。此外,艾中多样的挥发性萜烯类化合物的生物合成分子基础仍不清楚。

在此,我们组装了高质量的艾染色体尺度基因组,并结合比较基因组学、转录组学、代谢组学及功能检测,研究其基因组进化及主要萜烯类化合物的生物合成途径的多样化。本研究建立了一个新颖且有价值的基础,有助于揭示艾蒿属植物的遗传多样性及其药用应用。

结果
基因组测序、组装与注释

基因组使用276.20 Gb的Illumina测序数据、497.09 Gb的PacBio Sequel II长读长数据和426.46 Gb的Illumina Hi-C数据进行了组装(补充表1)。通过k-mer(k = 21)预测,使用Illumina测序数据估算的基因组大小约为3.87 Gb,具有较高的杂合度(6.8%)(补充图2)。流式细胞仪测定的基因组大小为3.98 Gb(补充图3),与k-mer预测结果相近。使用PacBio长读长数据,初步组装的基因组大小为7.87 Gb,包含14,638个contig,contig N50为1.45 Mb(补充表2)。初步组装的基因组大小几乎是基因组调查结果的两倍,提示初步组装的基因组覆盖了两个单倍型基因组。随后,利用Hi-C配对末端读长将这些contig连接,并将其锚定到34条假染色体上,占组装基因组的97.86%(补充表3)。根据创建嵌合单倍体基因组的方法,通过自我比较将这34条假染色体分为两个单倍型。 homolog染色体对中较长且更完整的染色体被分配到单倍型A组,包含假染色体1–17(补充表4);其余分配到单倍型B组,包含假染色体18–34(补充表5)。最终,获得了包含17条假染色体(单倍型A)的艾基因组,总长度为3.89 Gb(scaffold N50为214 Mb),并用于后续的基因组分析(图1D和补充图4;补充表3)。通过基准单拷贝同源基因(BUSCO,v.4.0)分析,基因组完整度估计为95.38%(补充表6)。共计94.97%的Illumina短读长被映射到组装基因组(补充表7)。通过核心真核基因映射法(CEGMA)对组装基因组进行分析,显示与248个高度保守的真核基因集合匹配率为97.98%(补充表8)。基因组组装的长末端重复(LTR)组装指数为18.65(补充图5)。综合来看,这些结果证明了艾基因组组装的高连贯性和质量。艾基因组的质量与先前使用HiFi技术进行的研究结果相当(补充表9;Miao et al., 2022)。

通过同源预测、从头预测和转录组预测,共预测了62,844个蛋白编码基因(补充表10)。大部分基因已被分配到功能(补充表11)。BUSCO分析表明,96.00%的双子叶植物数据库中的保守核心基因出现在我们预测的基因中,确认了基因预测的高完整性(补充表12)。此外,非编码RNA基因的注释揭示了4079个转运RNA、202个核糖体RNA、584个小核RNA和309个微RNA基因(补充表13)。通过同源比较和结构分析,我们注释了3.16 Gb的重复元素,占艾基因组的81.03%(补充表14)。LTR逆转座子(LTR-RTs)是主要的转座元件,占组装基因组的70.78%(补充表14)。在这些LTR-RTs中,大部分转座元件为Gypsy和Copia元素,分别占艾基因组的25.17%和19.27%,这可能促进了基因组扩展(补充图6)。

艾的系统发育位置

我们使用包含1057个单拷贝同源基因的数据集构建了系统发育树,通过将艾与其他11个植物物种(葡萄、番茄、芝麻、忍冬、人参、红花、莴苣、向日葵、短毛地丁、南京菊花和青蒿)中同源的蛋白序列进行分组(补充表15)。除葡萄外,这些物种都是星状花科I和II的典型代表,因此该系统发育树能够揭示艾的准确进化特征。

根据该系统发育树和TimeTree(TimeTree :: The Timescale of Life)的数据,艾与青蒿聚类,它们与南京菊花最为接近(图2A)。艾与青蒿的分化时间估计为大约540万年前(mya)(图2A)。对15种艾蒿属植物的完整叶绿体基因组序列进行的系统发育分析显示,艾、山艾蒿和白花艾蒿聚为一组,尽管这三种植物的染色体数目不同(补充图7)。

图2. 艾的近期谱系特异性全基因组重复(WGD)及无偏的亚基因组进化

(A) 包含12个物种的系统发育树,其中包括艾。节点旁的数字表示估计的分化时间。粉色条表示分化时间的95%置信区间(百万年前,mya)。基因家族的扩展和收缩分别用绿色加号和红色减号表示。 (B) 艾、青蒿、向日葵和咖啡基因组中同源基因与旁系基因的同义替代率(Ks)值密度图。WGT-1表示在菊科植物中检测到的全基因组三倍体化(WGT)事件。 (C) 艾和青蒿基因组之间同线性基因的点图。红色虚线表示艾基因组与青蒿基因组相比的同线性片段的断点;相同颜色的矩形表示与艾祖先二倍体基因组中相关的片段。 (D) 艾基因组进化轨迹。 (E) 艾两个推测亚基因组的分裂模式(以同源祖先染色体对为单位)与青蒿基因组的比较。x轴表示艾每条祖先染色体上的基因位置(ACA)。y轴表示对应于1000基因滑动窗口的ACAs中保留的同源基因的百分比。深色和浅色线分别表示同源ACA对。

通过基于同源基因序列相似性的聚类分析,来自12个植物物种的基因被聚类为49,410个基因家族。艾的基因分布在与其他物种共享的3,251个基因家族和艾特有的585个基因家族中(补充图8)。在艾基因组中识别出了951个显著扩展的基因家族和220个显著收缩的基因家族(图2A;补充数据1)。使用京都基因与基因组百科全书(KEGG)进行物种特异性和扩展基因家族的富集分析表明,萜烯类生物合成在艾中显著富集。这可能解释了艾的特有特征(如强烈香气)并提供了该药用植物中多样挥发性萜烯的分子基础(补充图9)。

艾的近期谱系特异性WGD事件

在双子叶植物中,经过古代全基因组三倍体化(WGT)事件WGT-γ(大约122-164百万年前),WGT事件WGT-1(大约53-62百万年前)在菊科II类物种中共享,例如向日葵(H. annuus)(Badouin et al., 2017)、莴苣(L. sativa)(Reyes-Chin-Wo et al., 2017)和青蒿(A. annua)(Liao et al., 2022)。向日葵经历了谱系特异性WGD(WGD-2,大约29百万年前)(Badouin et al., 2017)。然而,在青蒿中并未观察到谱系特异性WGD(Liao et al., 2022)。艾基因组中的同线性关系表明该物种可能经历了多倍体化(图1D)。为了推断艾特有的WGD事件,进行了与青蒿和向日葵的共线性分析。艾和青蒿之间有30,195对同线性基因,艾和向日葵之间有17,916对(补充图10)。艾和青蒿之间的同线性深度比为2:1,这意味着青蒿的每个基因组区域可以与艾基因组中的两个区域匹配;而艾和向日葵的同线性深度比为2:2(补充图10)。这些分析显示了艾中WGD事件的明确结构证据。为了进一步调查艾特有的WGD的系统发育位置,我们比较了同义替代率(Ks)值的分布。艾旁系基因的Ks分布显示在约0.0486处有一个明显的峰值,这与艾和青蒿之间共享的同源基因的Ks峰值(Ks = 0.0802)接近(图2B)。向日葵和咖啡基因组中旁系基因的Ks峰值大于艾。根据这些Ks值和艾与青蒿之间的分化时间,我们估计艾的WGD事件发生在大约3.3百万年前(图2B)。Ks分析表明,艾的这一WGD事件未与青蒿、南京菊花、红花和向日葵共享(补充图11),这表明近期的WGD事件是艾特有的,可能是自体或异源四倍体化的结果。

解码艾的祖先二倍体基因组和无偏的亚基因组进化

为了研究艾从近期谱系特异性WGD中衍生的亚基因组的进化轨迹,我们根据以往研究的方法(Xu et al., 2020;Wu et al., 2022)重建了艾的二倍体祖先基因组。无重复的外群对于识别重复的片段对和在一个片段中丧失但在另一个片段中保留的同源基因至关重要(Schnable et al., 2011)。青蒿是艾蒿属中一个稳定的二倍体物种,并已完成染色体尺度基因组的组装(Liao et al., 2022)。对青蒿和艾基因组的结构比较显示,青蒿与艾基因组有良好的基因组同线性关系(图2C)。因此,青蒿基因组被用作二倍体参考,用于识别艾中的重复片段对和同源基因。根据两物种之间的基因组同线性关系,我们定义了一个艾蒿属特有的基因组块(GB)系统,用于识别艾祖先二倍体基因组中的断点和关联。具有两个拷贝的断点被赋予为重复的,并通过WGD传递到两个亚基因组中。在青蒿的9条染色体中共识别出了16个断点。这些断点将青蒿基因组划分为25个GB(A–Y)(图2C;补充表16)。随后,这25个GB被映射到艾的17条染色体上(图2C),然后筛选出艾基因组中在两个亚基因组中都存在的GB关联。相应地,识别出了16个此类GB关联(补充表17),并用来将25个GB融合成9组。因此,艾的二倍体祖先基因组推测在最近的WGD事件之前包含9条染色体(图2D)。在GB系统中识别出了两组重复的祖先染色体(图2C),强烈支持艾基因组中包含两个亚基因组。我们还进行了基于艾祖先染色体(ACA)的亚基因组进化分析。通过沿每个ACA使用1000基因的滑动窗口,我们计算了保留的同源基因的百分比。没有任何ACA的同源基因保留率显著高于或低于其同源染色体,表明亚基因组分裂是无偏的(图2E;补充表18)。我们还计算了每个ACA中保留的青蒿同源基因的Ka和Ks值,发现所有ACA之间的Ka/Ks比值没有统计学差异。每个ACA和青蒿共享的同源基因的Ks峰值重叠(补充图12和13),表明两个亚基因组在进化模式上相似。随后,我们研究了两个亚基因组之间表达水平的优势。与每对同源ACA之间的同源基因表达相比,未观察到任何ACA的整体表达水平增加(补充图14)。转座元件(TEs)的快速进化通常导致在两个有机体或亚基因组的多样化过程中积累物种特异性的TEs(Renny-Byfield et al., 2015)。因此,我们调查了每对同源ACA之间TEs的特异性积累。使用来自两个亚基因组的18个ACA的32个TE家族的拷贝数统计矩阵进行了主成分分析(补充数据2)。主成分分析结果显示,来自两个亚基因组的18个ACA没有分为不同的簇(补充图15),表明两个亚基因组都没有积累特定的TEs。这些结果共同表明艾的亚基因组进化是无偏的。因此,我们提出,在艾的祖先中大约在3.3百万年前发生了一个自体多倍体化事件,在其与青蒿分化之后不久发生。此外,我们还发现艾的第10号染色体(chr10)可能是通过两个染色体的融合形成的(补充图16),且该融合事件未通过WGD复制。合理推测,这一融合很可能发生在自体多倍体化事件之后,形成了艾的独特核型。

基因重复和萜烯合酶(TPS)家族扩展对挥发性萜烯多样性的贡献

基因重复是进化中新功能遗传物质的重要来源,被认为是植物进化和创新的驱动力(Moore 和 Purugganan, 2005;Flagel 和 Wendel, 2009)。艾近期的WGD事件产生了许多重复基因。通过DupGen_finder(Qiao et al., 2019),我们在艾基因组中共识别出59,030个重复基因,其中包括WGD重复基因、串联重复基因(TDs)、邻近重复基因、转座重复基因和分散重复基因(补充图17)。接下来,我们对艾扩展基因家族中的重复基因进行了KEGG富集分析。二次代谢途径中重复基因的丰富性可能主要由WGD事件引起(图3A),而代谢途径和单萜生物合成基因家族的扩展则是由串联、邻近和转座重复引起的(图3A)。挥发性萜烯是艾中芳香和药效化合物的主要来源。我们在艾的根、茎、叶和花中检测到多种萜烯类化合物,包括1,8-桉叶油、萜烯、龙脑、β-蒎烯、樟脑、异薄荷醇、法尼烯和丁香烯(图3B)。为了更好地理解重复基因对挥发性萜烯多样性的贡献,我们测试了参与梅瓦酸(MVA)途径和甲基赤藓醇磷酸(MEP或非梅瓦酸)途径的基因的拷贝数。与青蒿相比,艾中这些途径中基因(如AACT、HMGR、DXS和DXR)的拷贝数受到了各种类型的基因重复的影响(图3C)。与其他基因重复类型相比,WGD事件对MVA和MEP途径中基因拷贝数的增加贡献更大(图3C)。艾根、茎、叶和花的转录组分析表明,一些来源于基因重复的基因(如MCT、CMK和MDS)具有相似的表达模式(图3C)。这些结果表明,WGD和其他重复事件显著改变了参与萜烯生物合成的基因拷贝数。

图3. 基因重复和TPS家族扩展对挥发性萜烯生物合成的贡献

(A) 来自不同类型重复事件的扩展基因家族中的基因的京都基因与基因组百科全书(KEGG)富集分析。 (B) 多个艾组织中挥发性萜烯的相对含量。气相色谱-质谱(GC-MS)色谱峰面积用于相对定量。 (C) 艾中与萜烯生物合成相关的基因的组织特异性相对表达谱,具体为梅瓦酸(MVA)和甲基赤藓醇磷酸(MEP)途径。中间体以黑色显示,每一步的酶以橙色或绿色显示。相关酶编码基因的重复类型用彩色圆点表示。涉及挥发性萜烯生物合成的基因在艾和青蒿中的拷贝数变化(从左至右)显示在酶旁边。 (D) 艾、青蒿和向日葵的TPS基因的系统发育树。TPS-a、TPS-b、TPS-g、TPS-e/f和TPS-c亚家族的基因分别用不同颜色的带表示。分支节点由确定的分化事件定义,并用黑色数字表示。 (E) 三个物种TPS基因的拷贝数变化。红色圆圈和六边形中的数字分别表示祖先物种和现存物种中TPS的拷贝数。带有加号和减号的分支上的数字分别表示获得和丧失的基因数。右侧框中的数字表示艾中每个TPS亚家族中由五种类型重复产生的基因数。

TPS是萜烯生物合成中的关键酶(Jiang et al., 2019b)。艾基因组的一个显著特点是注释了大量的TPS基因(AarTPSs)。在艾基因组中共注释了122个TPS基因,使得AarTPSs的数量超过了其他菊科植物,如甜叶菊(Stevia rebaudiana,83个TPS)、向日葵(H. annuus,79个TPS)、莴苣(L. sativa,67个TPS)、青蒿(A. annua,63个TPS)、红花(C. tinctorius,55个TPS)、短毛地丁(E. breviscapus,55个TPS)、牛蒡(Arctium lappa,49个TPS)和朝鲜蓟(Cynara cardunculus,34个TPS)(补充图18)。为了探索艾TPS基因家族的谱系特异性扩展,我们使用了向日葵和青蒿的TPS基因来构建系统发育树,因为这两种物种分别代表了经过或未经过谱系特异性WGD事件后的基因保留。

根据系统发育关系,我们确定了导致艾、青蒿和向日葵特有分支的节点,并预测这些节点代表了三物种的分化点和最新的共同祖先(图3D)。在三个物种中共识别了97个这样的基因节点,其中90个具有较高的置信度(≥50%),7个具有较低的置信度(<50%)(图3D)。在这97个节点中,TPS-a和TPS-b亚家族分别包含48个和27个祖先基因节点(图3E)。与其他两种物种相比,艾的共同祖先基因经历了更多的扩展和较少的丧失,特别是在TPS-a和TPS-b亚家族中,这两家族贡献了艾中最多的TPS基因。在青蒿的TPS基因中,由于显著的基因丧失,只有28个基因保留在TPS-a亚家族中(图3E)。与祖先基因相比,艾中TPS-c、TPS-e/f和TPS-g亚家族中的基因扩展和丧失在物种分化后没有显著变化。基于艾TPS基因重复类型的分析,在TPS-a亚家族中丧失了16个同源基因,并获得了37个旁系基因,主要通过WGD或TD(图3E)。特别地,几乎所有的TPS-a和TPS-b基因都源于基因重复事件,这可能是艾挥发性萜烯多样性的最重要贡献因素。

重要挥发性萜烯生物合成关键基因的表征

germacrenes化合物是菊科植物中常见的倍半萜,并在植物的防御和信号转导中起着重要作用,帮助植物适应环境(Li et al., 2021)。在艾基因组中共识别出了11个注释为germacrene合酶的同源基因,包括10个germacreneD合酶(GDS)和1个单拷贝的germacreneA合酶(GAS)。有趣的是,艾基因组中存在一个包含两个GDS类群(A和B)及其他基因的基因簇。这些基因均匀分布在位于chr17上的142.54至143.11 Mb区域内的两个模块(1和2)中(图4A)。具体而言,AarTPS111、AarTPS112、AarTPS114和AarTPS115被聚类到类群A,而AarTPS113和AarTPS116被聚类到类群B(图4A)。这两个模块的相对表达模式相似(图4A)。基于它们的系统发育关系、染色体位置和基因表达谱,我们推测这两个模块可能源自直接的串联重复事件。此外,其他基因(如MIP1和RING/U-box)也位于这两个模块中,且它们的表达水平相似,这足以证明是串联重复的特征(图4A)。在重复基因簇中,AarTPS114在GDS同源基因中具有较高的表达水平,因此我们在体外检测了AarTPS114(GDS)的酶活性(图4B)。AarTPS114催化了从法尼烯基焦磷酸(FPP)生成多种倍半萜产物,包括主要产物germacreneD,随后是γ-元素烯、β-伊朗烯、β-古巴烯、e-木萜烯、双环germacrene、γ-木萜烯和germacreneD-4-醇(图4B)。

图4. 艾中重要挥发性萜烯生物合成关键基因的表征

(A) germacrene合酶同源基因的系统发育树及570 kb候选GDS基因簇模型。在其他植物中已鉴定的具有功能的酶以黑色显示,艾中的候选GDS基因以绿色显示,艾中的候选GAS基因以橙色显示。来自串联重复的候选GDS基因聚类为A类(红色)和B类(蓝色)。基因旁的黑色线条表示两个串联重复模块(1和2)。红色A和蓝色B表示germacrene合酶系统发育树中的A类和B类基因。热图展示了六个候选GDS基因的组织特异性表达模式。 (B) GC-MS色谱图展示了GDS(AarTPS114)目标产物的代表性化合物峰。蛋白质进行了体外催化纯化。 (C) 青蒿chr06和艾chr06及chr14中包含GAS基因的基因组间同线性块。连接同线性GAS基因区域的线条用橙色突出显示。在艾中,GAS缺失于一个重复片段(chr14),但在另一个片段(chr06)中保留。 (D) GC-MS色谱图展示了GAS(AarTPS34)目标产物的代表性化合物峰。蛋白质进行了体外催化纯化。 (E) TPS-GFP融合蛋白在烟草叶肉原生质体中的亚细胞定位。 (F) 艾中出生基二磷酸合成酶(BPPS)和出生醇脱氢酶(BDH)基因的组织特异性表达谱。红色星标表示在本研究中功能鉴定的基因。 (G 和 I) GC-MS色谱图展示了艾中BPPS(AarTPS89)和BDH(AarBDH5)目标产物的代表性化合物峰。蛋白质进行了体外催化纯化。 (H) 艾chr04和chr12中包含BDH基因的基因组间同线性块。连接同线性BDH基因区域的线条用橙色突出显示。

与此相比,青蒿基因组中的单拷贝GAS同源基因仅位于艾的chr06(AarTPS34)上,并且在同源染色体(chr14)上没有AarTPS34的重复(图4C)。AarTPS34将底物FPP转化为单一的倍半萜产物β-元素烯(图4D和补充图19),具有显著的抗肿瘤活性(Bai et al., 2021)。β-元素烯是germacreneA的转化产物,因高注射口温度250°C下发生Cope重排(Rinkel 和 Dickschat, 2019)。亚细胞定位实验表明,AarTPS34和AarTPS114定位于叶绿体(图4E)。

薄荷醇和樟脑是艾中具有显著抗炎、止痛和抗菌作用的有价值的单萜类化合物(中国药典委员会, 2020;Sokolova et al., 2021)。为了阐明艾中(+)-薄荷醇和(+)-樟脑的生物合成途径,基于序列相似性和系统发育分析,我们在艾基因组中鉴定了8个出生基二磷酸合成酶(BPPS)基因和8个出生醇脱氢酶(BDH)基因(图4F和补充图20、21)。一个BPPS(AarTPS89)在体外从GPP生成(+)-薄荷醇作为唯一产物(图4G和补充图22)。两个BDH同源基因的TD基因对(AarBDH4/AarBDH8和AarBDH5/AarBDH7)分别位于艾基因组的同源染色体chr04和chr12上(图4H)。在艾中,仅AarBDH4和AarBDH5表达,而AarBDH8和AarBDH7几乎没有表达(图4F)。对这两个TD基因(AarBDH4和AarBDH5)的功能鉴定表明,这两种BDH均以(+)-薄荷醇为底物,使用NAD+作为辅因子生成(+)-樟脑(图4I和补充图23),表明它们在艾中的功能相同。因此,艾中(+)-薄荷醇和(+)-樟脑的整个生物合成途径被阐明。

基因组中缺失ADS

Amorpha-4,11-diene合酶(ADS)是青蒿素生物合成中的关键酶。ADS基因在青蒿基因组中以串联重复基因簇的形式存在,在两个青蒿菌株(HAN1和LQ-9)的基因组中分别有六个或四个拷贝(Liao et al., 2022)。尽管艾和青蒿属于同一属,但艾中从未检测到青蒿素相关化合物。为了确定艾中缺乏青蒿素生产的原因,我们首先检查了艾中的ADS基因。通过共线性分析,确定了与青蒿ADS基因簇相关的同线性区域(图5A)。然而,青蒿ADS簇的相应同线性基因在艾同源染色体(chr05和chr13)的同线性区域中并未出现(图5A)。有趣的是,在chr05的同线性区域中发现了一个仅包含单一外显子和3′ UTR的ADS基因片段,提供了部分缺失祖先ADS基因的证据(图5B和补充图24)。

图5. 艾中ADS基因的部分缺失及ADS同源基因功能丧失

(A) 艾同源染色体对(chr05和chr13)与包含ADS基因簇的两株青蒿基因组基因组间同线性块。ADS片段(红色虚线框标示)仅在chr05上发现,而在chr13上未发现。 (B) 艾AarChr05上ADS片段的基因结构及两株青蒿菌株中的10个功能鉴定的ADS基因。 (C) 艾、艾蒿(A. absinthium)、库尔艾蒿(A. kurramensis)、海洋艾蒿(A. maritima)、青蒿和艾的β-丁香烯合酶(QHS)、α-双柏油醇合酶(BOS)、小杉烯醇合酶(KOS)、ADS和TPS基因的系统发育树。右侧热图展示了艾根、茎、叶和花中基因表达的每千碱基百万(FPKM)值。红色星标表示在本研究中功能鉴定的基因。 (D) GC-MS色谱图展示了艾中AarTPS58和AarTPS76目标产物的代表性化合物峰。

通过与青蒿ADS和其他艾蒿属植物中已功能鉴定的ADS同源基因(A. absinthium、A. kurramensis和A. maritima)序列相似性分析,识别出了艾TPS基因家族中的ADS同源基因(Muangphrom et al., 2016)。在与ADS同源基因系统发育相邻的12个基因中(图5C),仅AarTPS3、AarTPS22、AarTPS23和AarTPS58在艾根中高度表达,其他基因几乎没有表达。我们克隆了AarTPS3、AarTPS58和AarTPS76进行催化实验,并与AarTPS3的未完全开放阅读框一起进行实验。在大肠杆菌异源表达系统中,只有AarTPS76催化了从内源性FPP生成微量的α-元素烯(图5D)。因此,ADS基因的部分缺失和ADS同源基因功能丧失可能导致了艾中缺乏青蒿素的产生。

讨论

艾(A. argyi),又称中国艾蒿,是艾蒿属中最广泛使用的中草药之一(Liu et al., 2021)。我们利用PacBio平台产生的长读长和Hi-C技术生成了艾的染色体尺度基因组组装(图1D;补充表2–5;补充图4)。通过艾基因组的组装和分析,我们推测其二倍体祖先基因组在谱系特异性WGD事件之前,并推断出亚基因组在ACA单位中的无偏进化(图2)。AarTPS基因家族通过WGD和串联重复显著扩展(图3D和3E;补充图17和18),在挥发性化合物的形成中起着关键作用(图3B)。此外,艾中缺乏青蒿素的产生似乎是由于其基因组中缺失了ADS基因(图5)。

多倍体化在艾蒿属中非常常见。已检测到两种基本染色体数目,艾蒿属的倍性水平从二倍体到十二倍体(x = 9)和从二倍体到六倍体(x = 8)(Wang, 2004;Pellicer et al., 2007, 2010)。由于缺乏关于祖先艾蒿的基因组信息,很少有艾蒿物种可以直接确定多倍体化的起源。亚基因组进化的表征有助于揭示多倍体化的起源。亚基因组优势常在异源多倍体的基因组中报告(Schnable et al., 2011;Xu et al., 2020;Zhang et al., 2021),而自体多倍体通常经历无偏的亚基因组进化(Liu et al., 2017;Zhao et al., 2017;Li et al., 2019)。通过GB分析,我们推测艾的二倍体祖先基因组由9条染色体组成,这与艾蒿属物种中的常见染色体基数一致(图2D;补充表16和补充表17)。以祖先染色体为单位,我们验证了艾两个亚基因组在基因丧失、基因表达水平、基因突变率和特定TE积累方面的无偏进化特征。包括k-mer分析在内,所有这些结果支持艾基因组的自体多倍体起源(图2和补充图12–15)。类似地,在艾组装基因组中识别到了染色体融合(补充图16),这一结果与Miao et al.(2022)报告的结果一致。这种染色体融合未在两个亚基因组中重复(图2D),支持该融合事件发生在WGD事件之后。

WGD事件和现存重复基因对的高保留率已促进植物基因组中大量重复基因的积累(Van de Peer et al., 2009;Tank et al., 2015)。重复基因可能有几种不同的命运,包括使一个重复拷贝失活(非功能化)、引起新功能的分化(新功能化),或获得不同的组织特异性(亚功能化)(Lynch 和 Conery, 2000)。通过分析TPS基因家族的进化历史,我们发现艾基因组在TPS-a和TPS-b亚家族中保留了最多的基因(图3和补充图17、18),可能有助于挥发性单萜和倍半萜的混合和大规模产生(图3B)。WGD和串联重复是艾TPS家族扩展的主要机制(图3E和补充图17)。特别地,位于chr17上的一个GDS基因簇由两个源自串联重复的模块组成(图4A)。在这个基因簇中,AarTPS114编码的功能性GDS在六个TPS基因中具有较高的表达水平(图4A)。通常,表达变化被认为是重复基因功能分化的初始步骤,增加了基因组中重复基因存在的可能性(Li et al., 2005)。GDS基因簇中TPS基因表达谱的差异表明,这些艾酶的催化功能可能有所不同(图4A)。在WGD事件产生的两个旁系BDH基因对(AarBDH4/AarBDH8和AarBDH5/AarBDH7)中,只有AarBDH4和AarBDH5表达(图4H和补充图21)。AarBDH4和AarBDH5是具有不同表达模式和相同催化功能的串联重复基因,表明这些基因经历了亚功能化(图4H和补充图23)。

先前的研究表明,WGD后的基因保留模式并非随机,而是倾向于编码在基因网络和信号级联中起关键作用的蛋白质的基因(Jiang et al., 2013)。鉴于单拷贝基因通常比多拷贝基因具有更高的表达水平,单拷贝基因在物种间通常具有更高的序列保守性(De Smet et al., 2013)。在同源染色体对(chr06和chr14)之间的同线性块中,只有一个单拷贝基因(AarTPS34)编码GAS,且与在其他菊科植物中鉴定的GAS具有高序列相似性(图4C)。该GAS特异性地催化FPP转化为germacreneA(图4D;补充图19),使其成为一个有前景的单一产物酶。作为青蒿素生物合成的限速酶,ADS形成串联重复基因簇,并以拷贝数依赖的方式影响青蒿素的浓度(Liao et al., 2022)。然而,在艾基因组中仅残留一个包含单外显子和3′ UTR的ADS基因片段(图5B和补充图24)。两个具有高表达水平的ADS同源基因(AarTPS76和AarTPS58)未参与青蒿素前体的生物合成(图5D),这与其他艾蒿属植物中的同源基因相似(Muangphrom et al., 2016)。ADS功能丧失可能导致艾中缺乏青蒿素的产生,并可能与这种药用植物的物种特异性要求有关。

总之,我们的研究突出了艾基因组的进化历史,并支持将艾作为研究谱系特异性WGD事件和随后的亚基因组分化的合适模型。我们的发现改善了对各种类型基因重复及其在植物次级代谢物生物合成中的重要作用的理解,为进一步提高艾的药用质量奠定了稳定的基础。

方法
植物材料

本研究中测序的艾个体在中国医学科学院药用植物研究所的北京药用植物园(纬度40°N,经度116°E)种植。所有样本均来自该药用植物研究所登记号为10107436的艾个体(http://www.cumplag.cn)。采集年轻叶片用于基因组DNA提取和基因组测序文库构建。新鲜样本采集后立即用液氮冷冻,随后用于RNA测序(补充方法)、基因克隆及萜烯类含量检测。样本来自不同的克隆植物。.xn--dna-xi9dp5vmfp4bd0kfa72zga000rmka0b45h065bn1g21j1s2a29vh0nnq5cia4973h78leu5a.xn--,rna()-nr3ek84t3df1bw2enb802bf9a02aea71cj61bcifz03byj5abgar14acvgrxdx55ag7dj2dna081a451by14aga7610c0mm020eoe7amr4e3jas87n9jaj3fn17i.xn--ihqw2fo0crt4afial7b74bx14bgoiwv3akn1c./)

基因组测序

基因组测序的高分子量DNA从艾的嫩叶中提取,使用改进的十六烷基三甲基溴化铵法(Allen et al., 2006)。为了进行Illumina测序,构建了350-bp插入长度的双端文库,并使用Illumina NovaSeq 6000平台(Illumina,美国加利福尼亚州圣地亚哥)进行测序,生成了七个短读测序文库。为PacBio测序构建了三个约20-kb的SMRTbell文库,使用PacBio Sequel II平台(Pacific Biosciences of California,美国加利福尼亚州门洛帕克)进行测序。通过染色质提取、消化、DNA连接、纯化和碎片化构建了三个Hi-C文库(Belton et al., 2012);文库在Illumina NovaSeq 6000平台上进行测序(补充方法)。

基因组组装和评估

在组装之前,首先过滤掉PacBio原始数据中的低质量序列,之后对这些数据进行错误更正,并使用Canu软件(Koren et al., 2017)将其进一步组装成contigs。使用Illumina双端数据通过Pilon软件(Walker et al., 2014)进行三轮修正。使用高质量的Hi-C数据进一步辅助进行染色体级基因组组装。426.46 Gb的干净读段通过Burrows-Wheeler Aligner软件(v.0.7.10-r789)(Li 和 Durbin, 2009)与contig组装结果进行比对,并使用HiC-Pro软件(v.2.10.0)(Servant et al., 2015)统计唯一有效的配对端读段数来评估文库质量。LACHESIS软件(Burton et al., 2013)用于对contig级别的基因组进行聚类、重排和定向,随后手动检查Hi-C热图以确保没有错误定向,最终得到染色体级别的基因组。通过使用BUSCO(v.4.0)(Simão et al., 2015)、CEGMA(Parra et al., 2007)和LTR_retriever(v.2.9.0)(Ou et al., 2018;补充方法)评估了艾基因组组装的质量和完整性。

基因预测和基因组注释

我们结合了全新预测、同源性搜索和基于转录本的组装来预测基因组中的蛋白编码基因。基因预测方法在补充方法中进行了详细描述。基因组注释包括重复序列注释、编码基因和功能注释以及非编码RNA注释(补充方法)。首先,我们使用RepeatModeler2(v.2.0.1)(Flynn et al., 2020)定制了一个新的重复文库,该程序自动结合了RECON(v.1.0.8)(Bao 和 Eddy, 2002)和RepeatScout(v.1.0.6)(Price et al., 2005)。该文库与已知的Repbase(v.19.06)(Jurka et al., 2005)、REXdb(v.3.0)(Neumann et al., 2019)和Dfam(v.3.2)(Wheeler et al., 2013)数据库结合,用RepeatMasker(v.4.1.0)(Tarailo-Graovac 和 Chen, 2009)检测重复序列。使用LTR_retriever(v.2.9.0)(Ou 和 Jiang, 2018)识别高质量的完整LTR-RTs并计算插入年龄。串联重复序列通过Tandem Repeats Finder(TRF,v.409)(Benson, 1999)和MIcroSAtellite identification tool(MISA,v.2.1)(Beier et al., 2017)进行注释。

基因家族和系统发育分析

使用OrthoFinder软件(v.2.4)(Emms 和 Kelly, 2019)识别了12个植物物种(补充表15)中的基因家族簇,包括艾。每个同源基因组的序列用于使用MAFFT(v.7.490)(Katoh 和 Standley, 2013)构建多序列比对,随后使用Gblocks软件(v.0.91b)(Talavera 和 Castresana, 2007)去除缺口区域(参数:-b5 = h)。使用IQ-TREE软件(v.1.6.12)(Nguyen et al., 2015),结合ModelFinder包(Kalyaanamoorthy et al., 2017),利用最大似然法构建每个单拷贝同源基因组的系统发育树。使用PAML包(Yang, 1997)中的MCMCTree(v.4.91)估计艾与其他11个物种之间的分化时间。使用TimeTree数据库(TimeTree :: The Timescale of Life)中的多个化石时间进行时间校准。通过CAFE(v.4.2)(Han et al., 2013)识别了12个测序物种中扩展或收缩的基因家族。

基因共线性和Ks分析

使用JCVI软件包(https://github.com/tanghaibao/jcvi)(参数:--minspan = 30)进行艾、青蒿和向日葵之间的全基因组物种间共线性分析。简而言之,使用LAST程序进行配对比对(Martin Frith / last · GitLab)并默认参数,将艾基因组与其他植物基因组进行比对。LAST结果经过c-score过滤(c-score = 0.99),使用JCVI的子程序生成共线性图。共线性分析结果用于识别艾中的WGD事件。为了估计艾WGD事件的系统发育位置,使用KaKs_Calculator(v.2.0)(Wang et al., 2010)计算了同源基因对(艾与青蒿、向日葵或咖啡的比较)和旁系基因对(基因组内部的基因对)的Ks值。艾和青蒿的同源基因的Ks值(均值为0.0802),结合两物种的分化时间点(5.4百万年前),可以计算出每年每个同义位点的替代次数(r = 7.44E−3,分化日期 = Ks/(2r))。相同的值被应用于艾的WGD事件,以计算艾WGD事件的发生时间(Ks = 0.0486,约3.3百万年前)。

重建艾蒿(A. argyi)的祖先二倍体基因组及其亚基因组染色体

为了重建艾蒿的祖先二倍体基因组,根据之前的研究(Xu et al., 2020),定义了一个特定于艾蒿的GB系统。青蒿(A. annua)是一种稳定的二倍体物种,最近与艾蒿发生了分化。通过JCVI软件包分析,青蒿基因组与艾蒿基因组基因组共线性方面显示出明确的关系。因此,我们选择青蒿作为对照,进行详细的基因组结构比较。我们扫描了青蒿的九条染色体,找出了在两个艾蒿亚基因组的同源片段中同时发生的断点。最终,构建了一个由16个断点分割的25个GB框架(A–Y)用于进一步分析(补充表格16)。我们在二倍体祖先染色体上搜索GB之间的关联(补充表格17)。这些GB关联在青蒿中不存在,但在艾蒿基因组中存在两个拷贝。共有16个此类关联将25个GB融合成九组。因此,确定艾蒿的二倍体祖先在多倍化之前拥有九条染色体,且艾蒿基因组中存在两套祖先基因组。随后,我们基于以下两个原则重建了代表艾蒿两个亚基因组的18条祖先染色体:(1)染色体内的一个区块不应包含重叠和冗余的片段;(2)根据染色体的位置,每个区块应尽可能少地进行重排。我们还进行了亚基因组进化分析,内容包括基因保留、Ks、基因表达和TE特异性积累分析。

TPS家族基因鉴定及系统发育分析

为了鉴定艾蒿、青蒿和向日葵(H. annuus)中的潜在TPS基因,我们使用两个Pfam结构域(PF03936和PF01397)通过HMMER(v.3.0,E值<1e−5)对蛋白质组进行了搜索(Wheeler和Eddy, 2013)。伪基因和缺失结构域的序列被排除在进一步分析之外。 我们使用MUSCLE(v.5.1)进行三种物种TPS基因的序列比对(Edgar, 2004),并利用PAL2NAL(v.14)(Suyama等, 2006)将比对结果应用于DNA比对;然后使用trimAl(v.1.4)(Capella-Gutiérrez等, 2009)修剪DNA比对。系统发育树采用RAxML(v.8.2.12)使用最大似然法重建(Stamatakis, 2014),并使用GTRGAMMA模型和1000次自助法重复。 接下来,我们使用前期研究的方法(Kim等, 2006)调查了这三种物种TPS基因谱系特有扩展和收缩的进化历史。我们根据两个标准识别出三种物种之间的分歧节点:(1)自助法值高于50%;(2)三种物种特有的分支关系与物种树一致。如果这两个标准同时满足,则将由这些节点定义的分支视为由三种物种的祖先TPS基因衍生的同源群体。然而,仅包含三种物种中一个或两个物种序列的分支表明TPS基因在进化过程中丧失。因此,还根据这些分支与TPS分支的姐妹群关系进一步识别了更多的同源群体。

germacrene合成酶(Germacrene synthase)酶活性分析

为了进行体外酶活性表征,我们将AarTPS34和AarTPS114的全长基因序列克隆到含有His标签的pET28a载体中,并将质粒转化到BL21(DE3)细胞中。通过0.5 mM异丙基-β-D-硫代半乳糖苷在16°C下过夜诱导重组His-TPS蛋白表达,并使用M5 His标签蛋白纯化试剂盒(美科生物,北京,中国)和与结合缓冲液相同的洗脱缓冲液(除了咪唑浓度为500 mM)。蛋白质浓度通过BCA试剂盒(美科生物,北京,中国)进行测定。TPS酶活性检测在1 ml反应缓冲液(30 mM HEPES,5 mM DTT,25 mM MgCl2)中进行,加入10 μg纯化蛋白和10 μgFPP/GPP/橙花三烯二磷酸(Sigma-Aldrich, St. Louis, MO, USA)(Shang等, 2020)。混合物在30°C下孵育1小时,随后在45°C下孵育15分钟,最后通过气相色谱-质谱联用(GC-MS)分析合成的挥发物(详见补充方法)。β-榄烯标准品(Sigma-Aldrich, St. Louis, MO, USA)作为阳性对照,负对照使用含pET28a载体的E. coli。

BPPS和BDH酶活性分析

BPPS和BDH的基因克隆、蛋白质表达和纯化、GC-MS产物检测按照补充方法进行。BPPS酶活性检测在300 μl反应缓冲液中进行,缓冲液含有30 mM HEPES、25 mM MgCl2、5 mM DTT、10 μg酶和10 μgGPP,30°C下孵育1小时。然后加入1.5 μl小牛肠碱性磷酸酶,在37°C下孵育2小时以进行酶促去磷酸化(Wang等, 2018)。BDH酶活性检测在500 μl缓冲液中进行,缓冲液含有10 mM NAD+、10 μg酶和5 μg(+)-冰片作为底物,30°C下孵育1小时。通过GC-MS检测(+)-冰片和(+)-樟脑的产生(Tian等, 2015)。(+)-冰片(Sigma-Aldrich, St. Louis, MO, USA)和(+)-樟脑标准品(上海源叶生物技术,上海,中国)作为阳性对照,负对照使用含pET28a载体的E. coli。本研究使用的所有引物列于补充表格19。


http://www.ppmy.cn/embedded/161107.html

相关文章

kafka服务端之分区管理

文章目录 概述优先副本选举为何要有优先副本优先副本选举弊端如何开启优先副本选举如何开启部分优先副本选举如何正确使用优先副本选举 分区重分配为何需要分区重分配分区重分配工作原理分区重分配弊端及其如何正确使用 复制限流为何需要复制限流如何进行复制限流 修改副本因子…

2.9学习总结

作业剩下的题属于是心有余而力不足了&#xff0c;今天主要复习了这周学过的内容&#xff0c;了解了数据结构&#xff08;不是很懂&#xff09;&#xff0c;因为之前刷的都是作业中的题嘛&#xff0c;其他类型的题就不是很会做&#xff0c;所以我就在洛谷踢单里面刷了一点题目&a…

【LLM】o1/R1系列LLM数据篇

关于思维链推理的10开源数据集&#xff1a; 目前开源的数据主要有如下&#xff1a; 1、Magpie-Reasoning-V2数据集&#xff0c;其中包含DeepSeek-R1生成的250K思路链推理样本&#xff0c;这些示例涵盖了数学推理、编码和一般问题解决等各种任务。https://huggingface.co/datas…

anaconda中可以import cv2,但是notebook中cv2 module not found

一、问题 anaconda中成功import cv2 但是jupyter notebook中却无法导入cv2 二、排查 anaconda中使用python路径如下&#xff1a; jupyter notebook中使用python路径如下&#xff1a; 可以发现路径不一致。 三、解决 ①查看可用的kernel ②选中想要修改的kernel&#xff0c;打…

如何查看Ubuntu24.04系统,显卡是什么型号,适配的驱动是什么?

在Ubuntu 24.04系统中&#xff0c;查看显卡型号和适配的驱动程序可以通过以下步骤完成&#xff1a; 查看显卡型号 要确定您的计算机上安装了什么显卡&#xff0c;您可以使用几种不同的命令。最常用的命令之一是lspci&#xff0c;它能够列出所有PCI设备的信息。为了专门找到NV…

android studio无痛入门

在Android Studio中创建和管理项目主要涉及以下几个步骤&#xff1a; 1. 创建新项目 打开Android Studio&#xff0c;点击“Start a new Android Studio project”或者“File” > “New” > “New Project”。 选择一个模板&#xff0c;例如“Empty Activity”&#xff0…

深入浅出:机器学习的全面解析

深入浅出&#xff1a;机器学习的全面解析 引言 机器学习&#xff08;Machine Learning, ML&#xff09;作为人工智能的一个重要分支&#xff0c;近年来取得了显著进展&#xff0c;并在多个领域中得到了广泛应用。本文将从基础概念、核心算法、应用场景以及未来发展趋势等方面…

基于机器学习的DDoS检测系统实战

基于机器学习的DDoS检测系统实战&#xff08;PythonScikit-learn&#xff09;&#xff5c;毕业设计必备 摘要&#xff1a;本文手把手教你从0到1实现一个轻量级DDoS攻击检测系统&#xff0c;涵盖数据预处理、特征工程、模型训练与可视化分析。 一、项目背景与意义 DDoS&#x…