期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘要:環狀核苷酸門控通道(CNGC)基因家族是非選擇性陽離子通道基因家族之一,在與植物發育和環境脅迫等有關的生理生化過程中起著至關重要的作用,但是目前尚無陸地棉CNGC基因家族的全基因組鑒定和分析。基于已知的擬南芥CNGC基因家族成員序列信息,以生物信息學方法分析陸地棉基因組中CNGC家族成員的理化性質、系統發育、染色體定位和差異表達情況。結果表明,共鑒定出33個GhCNGC基因,它們不均勻地分布在A、D染色體亞組上,其中15個基因分布在A染色體亞組上,18個基因分布在D染色體亞組上。系統發育分析結果表明,GhCNGC基因家族被分為4個主要組,由于在進化過程中不均等地擴增,Ⅳ組又分為Ⅳa和Ⅳb組。同組陸地棉、擬南芥的CNGC基因顯示出相似的保守基序和基因結構,尤其是同源性越近,相似度越高。GhCNGC基因的表達譜以組織特異性模式表達,多數基因在根、葉中的表達量較高。研究結果使人們增加了對陸地棉和其他植物中CNGC基因家族的了解。
關鍵詞:CNGC;基因家族;全基因組;陸地棉;染色體定位;差異表達
植物中的Ca2+通過鈣離子傳導通道進行信號轉導是一種重要的信號轉導機制。信號轉導有助于植物生長發育、病原體防御及植物對激素、光和鹽脅迫的反應[1]。環狀核苷酸門控通道(CNGC)是可滲透Ca2+的陽離子轉運通道,調節植物生長并應對生物和非生物脅迫。CNGC位于細胞質膜或核膜,由Ca2+/鈣調蛋白(CaM)和環狀單磷酸核苷酸(cNMPs)等二級信使從細胞內部控制[2]。在植物中,CNGC由6個跨膜(TM)域和介于第5、第6個TM域之間的1個孔區域組成。環狀核苷酸結合結構域(CNBD)是一個高度保守的區域,并有1個磷酸鹽結合盒(PBC)和1個鉸鏈區。CNGC通過直接結合環狀核苷酸而被激活,當鈣調蛋白(CaM)結合到CaM結合域時會被抑制[3]。目前,生物信息學工具已在水稻[4]、玉米[5]、擬南芥[6]、甘藍[7]、白菜[8]、番茄[9]中用于識別CNGC基因家族成員。
之前的研究發現,CNGC是植物發育的關鍵組成部分。目前,大多數CNGC已通過遺傳學方法得到表征,并且它們已顯示出與植物生理、分子功能有關的重要作用,例如信號通路、植物發育和對環境脅迫的響應中涉及的多個生理過程。擬南芥環核苷酸門控通道2(AtCNGC2)參與擬南芥表皮細胞中茉莉酸(JA)誘導的質外體Ca2+流入[10],AtCNGC4可滲透K+、Na+,并被環磷酸鳥苷(cGMP)、環磷酸腺苷(cAMP)激活[11],AtCNGC7、AtCNGC8基因對雄性生殖力的作用至關重要[12],AtCNGC16、AtCNGC18基因可參與花粉發育[13],AtCNGC6、AtCNGC19、AtCNGC20基因參與了非生物脅迫反應[14]。
近年來,人們對植物中的CNGC基因家族進行了研究,然而,關于陸地棉(Gossypium hirsutum Linn.)CNGC(GhCNGC)基因家族的系統鑒定、起源和功能的研究卻很少。本研究利用陸地棉全基因組序列信息、擬南芥CNGC家族的研究信息及綜合生物信息學分析技術對陸地棉中CNGC進行全基因組鑒定來完成每個CNGC基因家族成員的深入分析,包括對編碼蛋白的生理、生化特性分析。此外,本研究還分析了CNGC家族成員的表達方式,以闡明其對生物、非生物脅迫響應的機制,并鑒定出可能對育種有用的新基因。
1 材料與方法
1.1 陸地棉CNGC基因家族成員的篩選鑒定
陸地棉TM-1的基因組數據來自南京農業大學Cotton Research Institute網站 (http://mascotton.njau.edu.cn/),試驗時間為2020年8月,試驗地點為新疆維吾爾自治區石河子市新疆農墾科學院棉花研究所。以擬南芥CNGC基因家族成員的身份標志(ID)為探針在陸地棉TM-1基因組注釋文件中查找陸地棉CNGC家族ID,用虛擬機Bio-Linux 80運行HMM-Search搜索結構域,并提取目標基因序列。
1.2 陸地棉CNGC基因家族的理化性質分析
通過ExPASY-ProtParam在線網站(https://web.expasy.org/protparam)對陸地棉CNGC蛋白家族氨基酸序列的分子式、總原子數、親水性平均值、分子質量、蛋白不穩定系數等進行預測分析。通過SOPMA在線網站(https://npsa-prabi.ibcp.fr)分析陸地棉CNGC蛋白家族的二級結構。
1.3 陸地棉CNGC基因家族進化樹的構建
將陸地棉、擬南芥的CNGC蛋白序列以fasta格式保存在1個文件中,用默認參數運行MEGA 7.0軟件的ClustalW命令,進行序列對齊,采用鄰接法(neighbor-joining,NJ)進行系統發育重建,以自舉法(bootstrap method)進行系統發育計算,引導復制次數為1 000次,輸出格式為Newick,通過Evolview在線網站進行進化樹的編輯。
1.4 陸地棉CNGC基因家族染色體的定位及結構分析
根據陸地棉基因組數據庫中CNGC基因家族成員在染色體上的區域分布和染色體長度,通過Map Gene 2 Chrom在線網站(http://mg2c.iask.in/mg2c_v2.1/)繪制染色體分布圖。通過MEME在線網站(http://meme-suite.org/)進行motif分析,搜索得到motif的總數為10個。用本地軟件TBtools將CNGC基因家族進化樹、MEME分析圖和基因結構圖進行合并分析。
1.5 陸地棉CNGC基因家族的差異表達分析
從美國國家生物信息中心(NCBI)數據庫中下載TM-1標準系陸地棉轉錄組數據包PRJNA248163,以FPKM值作為參數,將FPKM值低于8的分為一組,高于8的分為另一組。用TB-tools軟件進行基因表達圖譜的繪制。
2 結果與分析
2.1 陸地棉CNGC基因家族的鑒定分析
以已知的20個擬南芥CNGC基因家族成員的蛋白序列作為參考序列,在陸地棉標準系TM-1全基因組數據庫中進行比對篩選,最終獲得33個環狀核苷酸門控通道(CNGC)基因家族成員。由表1可以看出,陸地棉環狀核苷酸門控通道基因家族成員基因編碼區(CDS)序列全長為942~3 174 bp,編碼氨基酸313~1 057個,脂肪指數為77.03~102.46,平均親水性為-0.673~0.097,都屬于親水性蛋白;氨基酸殘基分子量為36.54~121.04 ku,理論等電點為689~9.59。
2.2 陸地棉CNGC基因家族的二級結構預測及蛋白的穩定性分析
由表2可以看出,陸地棉CNGC基因家族成員的二級結構均由α-螺旋、延伸鏈、β-轉角、無規卷曲4種結構組成,并且α-螺旋和無規卷曲是主要組成部分,所占比例最大。延伸鏈、β-轉角包含的氨基酸殘基數少,在二級結構中所占比例較小。根據蛋白不穩定指數統計結果發現,該家族成員的蛋白不穩定指數為39.11~57.22,僅GhCNGC29為穩定蛋白(穩定指數<40),其余的32個家族成員均為不穩定蛋白。
2.3 擬南芥與陸地棉CNGC基因家族的系統發育分析
本研究從陸地棉標準系TM-1基因組數據庫中篩選得到33個GhCNGC基因,根據這些基因在染色體上的分布情況,將這些基因命名為GhCNGC1~GhCNGC33。依據擬南芥AtCNGC基因家族的系統發育關系,將GhCNGC基因家族的33個成員與AtCNGC基因家族的20個成員的蛋白序列構建成系統進化樹。由圖1可以看出,GhCNGC基因家族成員的聚類情況與擬南芥相似,分為4個組群,分別為Group I、Group Ⅱ、Group Ⅲ、Group Ⅳ,其中Group Ⅳ又分為Group Ⅳ a和Group Ⅳ b。Group I含有13個成員,包括7個GhCNGC(GhCNGC1、GhCNGC2、GhCNGC3、GhCNGC4、GhCNGC19、GhCNGC20、GhCNGC21)和6個AtCNGC(AtCNGC1、AtCNGC3、AtCNGC10、AtCNGC11、AtCNGC12、AtCNGC13);Group Ⅱ含有6個GhCNGC(GhCNGC13、GhCNGC14、GhCNGC15、GhCNGC16、GhCNGC17、GhCNGC18)和5個AtCNGC(AtCNGC5、AtCNGC6、AtCNGC7、AtCNGC8、AtCNGC9);Group Ⅲ含有10個GhCNGC (GhCNGC22、GhCNGC23、GhCNGC24、GhCNGC25、GhCNGC26、GhCNGC27、GhCNGC28、 GhCNGC29、 GhCNGC30、GhCNGC31)和5個AtCNGC(AtCNGC14、AtCNGC15、AtCNGC16、AtCNGC17、AtCNGC18);Group Ⅳa含有2個GhCNGC(GhCNGC32、GhCNGC33)和2個AtCNGC(AtCNGC19、AtCNGC20);Group Ⅳb含有8個GhCNGC(GhCNGC5、GhCNGC6、GhCNGC7、GhCNGC8、GhCNGC9、GhCNGC10、GhCNGC11、GhCNGC12)和2個AtCNGC(AtCNGC2、AtCNGC4)。
2.4 陸地棉CNGC家族成員的染色體定位
根據陸地棉標準系TM-1的基因組數據庫資源,通過網站MapGene2Chrom進行在線GhCNGC家族成員的染色體定位分析[15]。將GhCNGC家族的33個成員定位在19條染色體上,并繪制該家族的基因圖譜。結果(圖2)顯示,分布在D基因組亞組的基因最多,有18個,而這18個基因主要分布在染色體的兩端,分布在上端的基因比分布在下端的基因多,分布在中間部位的基因僅有3個。分布在A基因組亞組的基因相對較少,有15個,這15個基因依然主要分布在染色體的兩端。分布在D04、D05、D09和A05染色體上的基因最多,分別為3、3、3、6個,而其他染色體上僅分布1~2個該家族基因成員。
2.5 陸地棉CNGC的系統進化和基因結構分析
通過MEME在線網站[16]及TB-tools軟件[17]分析GhCNGC家族成員的保守基序、內含子和外顯子的數量及分布。由圖3可以看出,同一亞家族成員分布在同一進化分支上,與圖1中的進化分析結果相同。分析motif的數量及位置發現,同一組成員的motif數量基本相同,且分布的位置較接近,在不同組之間存在差異。該家族33個成員中的24個成員均含有10個motif,8個成員的motif數量為9個,1個成員的motif數量為5個。而motif數量為9個的成員大多分布在Ⅳ組,可能由于Ⅳ組與其他3組的親緣關系較遠。有趣的是,Ⅱ組中的GhCNGC16僅有5個motif基序。從在內含子與外顯子的分布情況看出,多數同一組成員的內含子及外顯子數量較為接近,I組7個成員外顯子數為6~8個;Ⅱ組6個成員的外顯子數量為3~7個,除GhCNGC之外,均為7個外顯子;Ⅲ組的外顯子數量為5~11個;Ⅳ組的外顯子數量為7~13個, 但是Ⅳ a的2個成員的外顯子數量分別為12、13個,Ⅳ b的成員中,5個外顯子數量為7個,3個外顯子數量為8個。而且同一組成員的外顯子、內含子分布情況類似,差異顯著性小,表明了進化的保守性。不同組之間的差異較為顯著,尤其是Ⅳ組的成員之間及其與其他組相比較差異較大。