双生病毒的同义密码子用法及其进化分析

植物病理学报

ACTAPHYTOPATHOLOGICASINICA 38(5):478 488(2008)

双生病毒的同义密码子用法及其进化分析

徐晓忠,刘庆坡,樊龙江,周雪平

(1浙江大学农业与生物技术学院,杭州310029;

2

1211*

浙江林学院农业与食品科学学院,临安311300)

摘要:对双生病毒编码基因的变异进行了密码子用法分析,推测双生病毒基因的表达水平普遍不高,而外壳蛋白基因的表达水平相对较高,它们在密码子第3位上偏好使用A或T。双生病毒的密码子用法主要受到突变偏好和翻译选择等因素的影响。双生病毒的密码子使用具有基因特异性和一定程度的寄主特异性。基于相对同义密码子使用频率的聚类分析可以很好反映侵染单子叶植物和双子叶植物双生病毒之间的差异,也在一定程度上反映出双生病毒之间的亲缘关系。关键词:双生病毒;密码子用法;相对同义密码子使用频率;聚类分析;进化

Analysisonsynonymouscodonusageandevolutioningeminiviruses XUXiao zhong,LIU

Qing po,FANLong jiang,ZHOUXue ping

ty,

Hangzhou

310029,

China;

2

1

211

(1CollegeofAgricultureandBiotechnology,ZhejiangUniversi Agriculture

and

Food

Science,

Zhejiang

Forestry

Schoolof

University,Lin an311300,China)

Abstract:Synonymouscodonusagevariationhadbeeninvestigatedinprotein codinggenesofgeminiviruses.Mostofthegeneswerespeculatedtobelowlyexpressed,butcoatprotein(CP)genewasconsideredasrela tivelyhighlyexpressedone,whichpreferredtousethosecodonsendingwithAorT.Thecodonusagevaria tioningeminiviruseswasinfluencedbyseveralfactorssuchasmutationbiasandtranslationalselection.Thecodonusagepatternsingeminivirusesweregene specificandcertainhost specific.Clusteranalysisbasedonrelativelysynonymouscodonusage(RSCU)couldefficientlyandeffectivelyreflectthedifferencebetweenthemonocot infectinganddicot infectinggeminiviruses,andtoacertainextentreflecttheevolutionaryrelation shipamongthem.

Keywords:geminivirus;codonusage;relativelysynonymouscodonusage;clusteranalysis;evolution

中图分类号:

S432.41 文献标识码:A 文章编号:

0412 0914(2008)05 0478 11

遗传密码是指DNA或mRNA中的核苷酸序列与其所编码蛋白质中氨基酸序列之间的对应关系,包括61种编码氨基酸的有义密码子和3种通常不编码任何氨基酸的终止密码子(UAA、UAG和UGA)。一般每种氨基酸对应一种或多种(最多6种)密码子。编码同一种氨基酸的密码子称为同义密码子。在蛋白质合成过程中编码氨基酸的同义密码子并不被随机使用。大量研究表明,不同物种或同一物种的不同基因之间都在密码子使

用上存在明显偏好

[1~5]

。密码子使用偏性主要受

到突变偏好、翻译选择、蛋白质二级结构、复制和转录选择、蛋白质疏亲水性以及外部环境等多种因素

[6~14]

的影响。

双生病毒(Geminiviruses)是一类具有孪生颗粒形态的单链环状DNA病毒,通常发生在热带、亚热带地区,由昆虫介体以持久性方式传播,大多

[15]

侵染寄主植物的韧皮部组织。近年来,该类病毒在许多国家严重危害蕃茄、木薯、棉花和玉米等

收稿日期:2007 12 08;修回日期:2008 06 23

基金项目:国家自然科学基金资助项目(30530520);高等学校科技创新工程重大项目培育资金资助项目(705025)通讯作者:周雪平,教授,主要从事植物病毒学研究工作;E mai:[email protected]

第一作者:徐晓忠(1973-),男,浙江德清人,在读博士,主要从事植物病毒学和生物信息学研究;E mai:[email protected]

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

[16~19]

479

经济作物,甚至导致死亡。因此,对双生病的情况下,依据样品的多变量数据集所对应空间的相邻性或相似性对样品进行分类的方法。本文采用系统聚类法(hierarchicalclusteranalysis),即将n个样品中的每一个样品看作一个类,然后计算各样品之间的距离,并选择距离最小的样品合并成一个新类,随后计算新类与其它类之间的距离,再将距离最近的类别进行合并,如此循环下去直至所有样品合并为一类为止。在系统聚类法中主要涉及距离测度和聚类方法。常用的距离测度有欧氏距离、绝对距离、明考夫斯基距离、方差加权距离和马氏距离。聚类方法主要有最短距离法、最长距离法、中间距离法、重心法和类平均联结法。本试验采用分析软件SPSSv11.5中欧氏距离平方(SquaredEuclideanDistance)和类平均联结法(Averagelink agebetweengroups)来进行系统聚类。

由于供试菜豆金色花叶病毒属病毒很多,为避免冗余,本文根据不同地域、不同寄主,以及新、旧世界病毒等因素,选择28种菜豆金色花叶病毒属病毒和其它3个属的双生病毒一起进行了基于密码子使用频率的聚类分析(表1)。为分析方便对每种双生病毒给定一个对应的编号。1.3 分析密码子使用的主要指标

1.3.1 GC、GC3值 GC值为基因中G和C占所有碱基的百分比。GC3值是除蛋氨酸、色氨酸和终止密码子外,G和C出现在第3位密码子位置的频率。

1.3.2 有效密码子数(Nc,effectivenumberofco dons) Nc值能反映密码子家族中同义密码子非均衡使用的偏好程度。其值介于20-61之间,Nc值越接近20表示密码子被非随机使用的程度越高

[22]

毒的研究已受到各国研究人员的广泛关注。目前除了对双生病毒的主要症状、寄主范围、地理

[20,21]

分布、传播途径、抗原特性等方面的研究外,有关双生病毒的基因组结构和基因功能等方面的研究也已陆续展开。许多双生病毒基因组测序的陆续完成也为在分子水平上研究该类病毒的进化关系、病毒分类、阐明病毒和寄主细胞之间的作用机理等打下了基础。目前,有关双生病毒密码子使用方面的研究尚无报道。本文根据已知的双生病毒基因组序列,分析了双生病毒的密码子使用模式,并采用聚类分析的方法研究了它们之间的进化关系。

1 材料与方法

1.1 序列数据

根据国际病毒分类委员会双生病毒科研究组提供的双生病毒分类信息查询美国NCBI网站的RefSeq数据库,采用GenBank格式下载并建立164种供试双生病毒的全基因组数据库。本试验供试双生病毒绝大多数采用登录格式以 NC_ 开头的RefSeq数据库中参考序列,个别因未查询到对应参考序列而仍采用其原始登录号的序列。编写PERL程序共提取出1011个蛋白编码基因的变异,从中筛选出994个基因变异作为供试材料进行密码子使用模式的分析。筛选标准为:(1)所选用的基因应具有完整的CDS;(2)排除密码子数小于80的基因;(3)排除在RefSeq数据库中注释不明确或注释为推测(hypothetica1)的蛋白基因。1.2 分析方法

利用软件CodonWv1.4.2(http://source forge.net/projects/codonw/)计算供试病毒中编码基因的GC、GC3值和有效密码子数(Nc,effectivenumberofcodons)等指标并进行对应分析(CA,correspondenceanalysis)。编写PERL程序统计基因的相对密码子使用频率(RSCU,relativesynony mouscodonusage)和密码子适应指数(CAI,codonadaptationindex)。采用多元分析软件SPSSv11.5中的Spearman方法进行相关显著性测验和基于密码子使用频率的聚类分析。

[21]

1.3.3 相对同义密码子使用频率(RSCU,relativesynonymouscodonusage) RSCU值表示基因样本中某一密码子的使用频次与其在同义密码子家

族中的期望频次的比值。若某一氨基酸的同义密码子使用没有偏好,即密码子使用频率和期望频率接近,则该密码子的RSCU值等于1;如果某一密码子的RSCU值高于1,表明该密码子的使用频率高于期望频率,反之则低于期望值。RSCU值和氨基酸的使用及密码子的丰度无关,它能直观地反映[23]

480

植物病理学报

38卷

Table1 Thegeminivirusesusedforclusteranalysisinthisstudy

No.1*2345*6*78*910*[***********]*2021*2223

*

Species

AbutilonmosaicvirusAfricancassavamosaicvirusAgeratumleafcurlvirusAgeratumyellowveinvirusBeangoldenmosaicvirusCabbageleafcurlvirusChillileafcurlvirusCorchorusyellowveinvirusCowpeagoldenmosaicvirusCucurbitleafcrumplevirusEupatoriumyellowveinvirusEuphorbialeafcurlvirusHoneysuckleyellowveinvirusLinderniaanagallisyellowveinvirus

LudwigiayellowveinvirusMalvastrumleafcurlvirusMalvastrumyellowveinvirus

PapayaleafcurlvirusPeppergoldenmosaicvirusPepperleafcurlvirusRhynchosiagoldenmosaicvirusSidagoldenmosaicvirus

SidaleafcurlvirusSidayellowveinvirusSquashleafcurlvirusStachytarphetaleafcurlvirusTomatoleafcurlvirus

TomatoyellowleafcurlKanchanaburivirus

Beetcurlytopvirus

BeetmildcurlytopvirusBeetseverecurlytopvirusHorseradishcurlytopvirusSpinachcurlytopvirusBeanyellowdwarfvirusChlorisstriatemosaicvirusDigitariastreakvirusMaizestreakvirusMiscanthusstreakvirusPanicumstreakvirusSugarcanestreakEgyptvirusSugarcanestreakReunionvirus

SugarcanestreakvirusTobaccoyellowdwarfvirus

Wheatdwarfvirus

AcronymAbMVACMVALCuVAYVVBGMVCabLCuVChiLCuVCYVVCPGMVCuLCrVEpYVVEuLCVHYVVLAYVVLuYVVMaLCVMYVVPaLCuVPepGMVPepLCVRhGMVSiGMVSiLCuVSiYVVSLCVStaLCuVToLCVTYLCKaVBCTVBMCTVBSCTVHrCTVSpCTVBeYDVCSMVDSVMSVMiSVPanSVSSEVSSREVSSVTYDVWDV

SourceGermanyKenyaChinaSingaporeBrazilUSAPakistanVietnamNigeriaUSAJapanChinaUKChinaChinaChinaChinaIndiaMexicoThailandHondurasUSAChinaHondurasUSAChinaAustraliaThailandUSAUSAUSAUSAUSASouthAfricaAustraliaVanuatuSouthAfricaJapanSouthAfricaEgyptFrance(Reunion)SouthAfrica

AustraliaSwedenUSA

GenusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusCurtovirusCurtovirusCurtovirusCurtovirusCurtovirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusTopocuvirus

RefSeqNC_001928NC_001467NC_006384NC_004626NC_004042NC_003866NC_004628NC_006358AF029217NC_002984NC_003556NC_005319NC_005807AY795900NC_007210NC_007724NC_004634NC_004147NC_004101NC_000882NC_004643NC_002046NC_007638NC_004661NC_001936NC_004091NC_003896NC_005812NC_001412NC_004753NC_004754NC_002543NC_005860NC_003493NC_001466NC_001478NC_001346NC_003379NC_001647NC_001868NC_004755NC_003744NC_003822NC_003326NC_003825

24*25*[***********][***********]44

45Tomatopseudo curlytopvirusTPCTVNTforewWlbegomove

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

481

1.3.4 密码子适应指数(CAI,codonadaptationin

[23]

dex) 根据Sharp等的定义,CAI是在比较某基因和该物种高表达基因在密码子使用上有没有差別,并用来作为该基因在密码子使用上有没有最合适的指标。现已证明,CAI值最接近于基因表达水平的理论值,并已广泛应用于基因表达水平的测[24,25]量。CAI值的范围在0和1之间。CAI值越大表示密码子被偏好使用的程度越强烈,相应地其

[26]

基因表达水平就越高。

1.4 对应分析(CA,correspondenceanalysis)对应分析是目前最常用的多变量统计分析方法。它可以找出基因样本变量数据的变化趋势,并根据这些趋势将基因沿连续的轴分布。对应分析采用的变量数据为RSCU值。对应分析中,

[27]

的密码子使用偏好程度普遍不高,基因表达水平也相应不高。

双生病毒各属GC3和GC值的平均值非常靠近,表明GC3值主要受双生病毒GC值的影响。另外,玉米线条病毒属病毒的GC3和GC值明显高于其余3个属,分别为0.52%和0.51%,暗示玉米线条病毒属病毒应有着不同于其余3个属病毒的密码子使用模式。

2.2 影响双生病毒密码子使用变异的主要因素

为探究双生病毒基因间的密码子使用变异,作了双生病毒基因的Nc plot分布图(图1)。图中连续曲线表示在没有选择存在的条件下,同义密码子被随机使用时Nc值和GC3值之间的理论对应关系。如果密码子的碱基组成偏好(GC3值)作为Nc值的唯一决定因素,那么,Nc值将始终位于或略低于该理论曲线上。如果碱基组成偏好不是影响基因密码子选择使用的唯一因素,那么基因的实际分布与理论分布之间的比较是可以反映出对密码子使用的影响因素

[22]

样本中所有基因被分布在一个59维(59个正义密码子)的向量空间中,应用这些结果能够探究基因间RSCU值的变异趋势,从中可判别影响基因密码子使用的主要因素。

2 结果与分析

2.1 双生病毒密码子使用的变异

首先分析了164种双生病毒的994个基因的Nc值、GC3和GC值(表2)。结果发现双生病毒的Nc值在39.23和61之间变动,平均为54.66;GC3和GC值的变动范围分别在0.25%~0.69%和0.34%~0.59%之间,平均都为0.45%。可见,双生病毒的Nc值普遍较高,最低也有39.23。一般来说,Nc值越小表明该基因的密码子使用偏好程度越大,相应地基因表达水平也就越高。将Nc值小于30和大于55的基因也被研究人员用来预

[28]

测高表达和低表达基因。由此推测,双生病毒

。一般认为,距离理论曲

线较近基因的密码子使用偏性主要受到突变偏性的影响,而距离理论曲线越远的基因受到翻译选择压力和其它因素的影响就越大,基因在同样GC3值的情况下,其Nc值就越小。

双生病毒基因Nc plot分布发现,除了少部分基因恰好落在或略低于理论曲线上外,大部分基因位点均很好地落在了理论曲线的下方,有的还与理论曲线的垂直距离相去甚远。这说明双生病毒基因有着不同于GC3值所致的密码子使用模式,还受到突变偏好等其它因素的影响,部分基因落在与理论曲线垂直距离很远的区域,暗示翻译选择的压

Table2 Theaverageofeffectivenumberofcodons(Nc),thefrequenciesofG+Catthe

3rdpositionsofcodons(GC3)andthefrequencyofG+Cinacodinggene(GC)

valuesfortheprotein codinggenesofgeminiviruses

GenusBegomovirus**MastrevirusCurtovirusTopocuvirus

Total

Numberoftestspecies

1471151164

*

Nc

GC3*(%)0.45(0.25-0.62)0.52(0.34-0.69)0.41(0.31-0.59)0.42(0.33-0.55)0.45(0.25-0.69)

GC*(%)0.45(0.34-0.54)0.51(0.44-0.59)0.42(0.36-0.50)0.44(0.37-0.49)0.45(0.34-0.59)

54.85(39.23-61)53.07(43.05-61)51.51(40.63-61)55.09(49.62-61)54.66(39.23-61)

l B.

482

植物病理学报

38

Fig.1 Relationshipbetweentheeffectivenumberofcodons(Nc)andthefrequenciesofG+Catthe3rdpositionsofcodons(GC3)for994codinggenes( 80codonslong)of164geminiviruses

Thegeminivirusesaredividedintofourgroups,Begomovirus(B),Mastrevirus(M),Curtovirus(C)andTopocuvirus(T).

ThecontinuouscurverepresentstheexpectedcurvebetweenNcandGC3underrandomcodonusage.

力也对这部分基因的密码子使用产生了一定影响。而从不同属基因的分布来看,除玉米线条病毒属病毒因有相对较高GC3值而总体上靠右边分布外,不同属间并没有密码子使用上的明显差异。

根据病毒感染过程推断,病毒中非结构蛋白直接参与或间接调控基因的转录、复制和翻译,表达水平一般不高,而结构蛋白常在感染后期出现,表达量相对较高。将双生病毒结构蛋白(外壳蛋白)基因作为高表达基因样本集来计算基因的CAI值,并将基因CAI值和密码子使用偏性指标以及基因长度作相关分析。研究发现基因表达水平(CAI值)与Nc值、GC3、GC值呈极显著负相关(r=-0.166、-0.254、-0.532,P

用偏好的程度越强烈。高表达基因(外壳蛋白基因)偏好富集A和T,在密码子第3位上也偏好使用A和T。双生病毒的基因长度与CAI值、Nc值的相关系数分别达到极显著正相关和显著负相关(0.397,P

2.3 不同双生病毒的功能相同基因具有相似的

密码子使用模式

对994个双生病毒基因RSCU值进行对应分析,结果第一和第二条向量轴分别能解释密码子使用总变异的11.3%和7.8%。从双生病毒基因在2条向量轴的位置分布看,双生病毒各基因较均匀地散布在第一向量轴两边(图2)。除玉米线条病毒

5期

徐晓忠,等:双生病毒的

同义密码子用法及其进化分析

483

Fig.2 Positionsofthegenesof164geminivirusesintheplotoffirsttwomajoraxesbycorrespondenceanalysisofrelativelysynonymouscodonusage(RSCU)values

Thegeminivirusesaredividedintofourgroups,Begomovirus(B),Mastrevirus(M),Curtovirus(C)andTopocuvirus(T).

属病毒基因的分布稍集中外,其它各属病毒基因的分布均较分散,不同属之间病毒基因的密码子使用并未发现明显差异。有趣的是,番茄伪曲顶病毒的6个基因在向量轴上的分布位置相距较远,暗示同一病毒的不同基因应具有不同的密码子使用模式。 为了探究不同病毒的功能相同基因是否有着相同的密码子使用模式,将双生病毒基因中具相同功能的基因进行分组表示(图3)。结果发现病毒外壳蛋白基因AV1(V1)多数聚集在第一向量轴的最右端,症状决定因子AC4(C4)则主要聚集在数轴的左下方,其它不同双生病毒的功能相同基因也都很明显地聚集在一起。这说明双生病毒的密码子使用模式有着很明显的基因特异性。

2.4 双生病毒密码子使用具有一定程度的寄主

特异性

将双生病毒每个种的全基因组所有编码序列拼接起来作为一个样本,对各个病毒样本的密码子,量轴分别能够解释密码子使用总变异的19.7%和

8.1%。从各病毒在2条向量轴上的位置分布看,可以将双生病毒种分成2组,一组主要位于数轴的左下方,全部是玉米线条病毒属中的种;另一组位于数轴的其它部位,包括另外3个属中的种和玉米线条病毒属中其余3个种,分别是小麦矮缩病毒(WDV)、菜豆黄矮病毒(BeYDV)和烟草黄矮病毒(TYDV)(图4)。有意思的是,小麦矮缩病毒位于2组交界处,而菜豆黄矮病毒和烟草黄矮病毒则完全处于另一组内。众所周知,玉米线条病毒属中大部分种均侵染单子叶植物,唯独菜豆黄矮病毒(BeYDV)和烟草黄矮病毒(TYDV)是侵染双子叶植物的,这2种病毒同其它仅侵染双子叶植物的3个属中的种同处于一组内,说明双生病毒密码子使用模式同其所侵染的寄主是单子叶或双子叶植物有着极为密切的关系。至于侵染单子叶植物的小麦矮缩病毒(WDV)何以位于2组的交界处,这是否预示着该病毒从进化关系上源于侵染双子叶植

484

植物病理学报

38

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

485

2.5 基于密码子使用频率的聚类分析

根据表1列出的病毒种,对45种双生病毒进行基于密码子使用频率的聚类分析(图5)。结果发现,供试双生病毒很明显地分为两大类。所有侵染单子叶植物的玉米线条病毒属中的9种病毒(35-42,44)聚在一类,而侵染双子叶植物的其余双生病毒则聚在另外一类,包括菜豆金色花叶病毒属、甜菜曲顶病毒属、番茄伪曲顶病毒属中的全部病毒种,以及侵染双子叶植物的玉米线条病毒属中的2种病毒(34,43)。可见,同样是玉米线条病毒属中的种,由于所侵染寄主是单子叶或双子叶植物的不同,表现在密码子使用上也有很大差异。这再次证明双生病毒的密码子使用具有一定的寄主特异性。

所有侵染双子叶植物的双生病毒又可分为4个亚类:玉米线条病毒属中的菜豆黄矮病毒(BeYDV)和烟草黄矮病毒(TYDV)组成一类;菜豆金色花叶病毒(5)单独作为一类;甜菜曲顶病毒属中的种(29-33)、番茄伪曲顶病毒和菜豆金色花叶病毒属中的康查纳布里番茄黄曲叶病毒聚为一类;其余菜豆金色花叶病毒属中的种形成一类,并由5小类组成。在5小类中,菜豆金色花叶病毒属中新世界病毒分别组成2小类;旧世界病毒则分布在另外3小类中。这说明新世界病毒和旧世界病毒在密码子使用上也有明显差异。从进化关系看,旧世界病毒和新世界病毒之间存在较远的亲缘关系。一般认为进化上亲缘关系较远的物种间,在同义密码子使用上的差异也较大;反之,同义密码子使用上的差异也可反映出物种间的亲缘关系。由此可见,通过基于密码子使用频率的聚类分析可以客观地反映出不同病毒之间的亲缘关系。值得注意的是,番茄伪曲顶病毒(45)和菜豆金色花叶病毒属中的康查纳布里番茄黄曲叶病毒(28)聚类在一起,在密码子使用上表现出很高的相似性,推测它们在进化上应具有较近的亲缘关系。此外,菜豆金色花叶病毒属中的代表种菜豆金色花叶病毒(5)单独成为一类,和属内其它病毒在密码子使用上有着极为明显的差异,暗示菜豆金色花叶病毒和属内其它病毒的亲缘关系较远。对菜豆金色花叶病毒属重复抽样试验的分析结果也和上述推测结论相一致。

3 讨论

生物体中都存在密码子使用的偏好。一般情况下密码子使用偏好和基因表达水平密切相关。通常高表达基因往往具有较强的密码子使用偏性。确定合适的高表达基因作为参照集对于研究该物种的密码子使用模式很重要。一般来说,Nc值越小表明该基因的表达水平越高,Nc值小于30和大于55的基因可被预测为高表达和低表达基因

[28]

但从统计数据看,双生病毒基因的Nc值都在40以上,基因表达水平普遍不高。从图3中可以看出,外壳蛋白基因AV1(V1)大多数聚集在第一向量轴的最右端。对994个双生病毒基因对应分析后的相关分析发现,第一向量轴各基因的位置与Nc值呈极显著负相关(r=-0.094,P

双生病毒基因的Nc plot分布图表明,双生病毒的密码子使用不仅受突变偏好的影响,还受到自然选择的重要影响。往往高表达基因受到自然选择压力更大,迫使它们选择使用一系列主要偏爱密码子来提高翻译速率和精确度,进而优化翻译效率

[29,30]

。相对于双生病毒而言,这些偏爱密码子

又往往对应于寄主体内丰富的tRNA,因此通过分析病毒的密码子使用模式可以来预测寄主细胞中病毒的生存环境。此外,高表达基因对密码子偏好使用的程度更加强烈,暗示密码子用法具有一定的功能含义。研究发现不同双生病毒中具有相同功能的基因,其密码子使用偏性也具有明显的相似性。

Adams等

[4]

发现,植物病毒的基因长度对密

码子使用偏性没有影响。但本研究对双生病毒密码子使用分析发现,基因长度越长,密码子使用的偏好程度越大,基因表达水平越高。这种分析结果上的差异可能和所分析的植物病毒群体有关。

486

植物病理学报

38

Fig.5 Relativelysynonymouscodonusagerelationshiptreeof45

geminivirusesareshowedbydifferentgenera

Dicot andmonocot infectingvirusesarelabeledwithDIandMI,respectively.ThescalebarshowstheSquaredEuclidean

Distancewhilethemaximumarestandardizedby25.Thenumbersorasteriskednumbersrepresentthetestedspeciesas

i=;;.

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

487

人们发现单子叶植物的密码子用法明显不同于双子叶植物

[31]

。双子叶植物的GC3值通常小

tyofAgricultureandForestry(西北农林科技大学学报),2004,32(7):67-71.

[4] AdamsMJ,AntoniwJF.Codonusagebiasamongst

plantviruses[J].ArchivesofVirology,2003,149(1):113-135.

[5] ZhouH,WangH,HuangLF,etal.Heterogeneityin

codonusagesofsobemovirusgenes[J].ArchivesofVirology,2005,150(8):1591-1605.[6] LevinDB,WhittomeB.Codonusageinnucleopoly hedroviruses[J].JournalofGeneralVirology,2000,81(Pt9):2313-2325.

[7] GuptaSK,GhoshTC.Geneexpressivityisthemain

factorindictatingthecodonusagevariationamongthegenesinPseudomonasaeruginosa[J].Gene,2001,273(1):63-70.

[8] GuptaSK,MajumdarS,BhattacharyaTK,etal.

Studiesontherelationshipsbetweenthesynonymouscodonusageandproteinsecondarystructuralunits[J].BiochemicalandBiophysicalResearchCommunica tions,2000,269(3):692-696.

[9] OresiscM,ShallowayD.Specificcorrelationsbe

tweenrelativesynonymouscodonusageandproteinsecondarystructure[J].JournalofMolecularBiology,1998,281(1):31-48.[10]XieT,DingDF.Therelationshipbetween

synonymouscodonusageandproteinstructure[J].FEBSLetters,1998,434(1-2):93-96.

[11]McInerneyJO.Replicationalandtranscriptionalselec

tiononcodonusageinBorreliaburgdorferi[J].Pro ceedingsoftheNationalAcademyofSciencesoftheUSA,1998,95(18):10698-10703.

[12]RomeroH,ZavalaA,MustoH.Compositionalpres

sureandtranslationalselectiondeterminecodonusageintheextremelyGCpoorunicellulareukaryoteEnta moebahistolytica[J].Gene,2000,242(1-2):307-311.

[13]RomeroH,ZavalaA,MustoH.Codonusagein

Chlamydiatrachomatisistheresultofstrand specificmutationalbiasesandacomplexpatternofselectiveforces[J].NucleicAcidsResearch,2000,28(10):2084-2090.[14]LynnDJ,SingerGA,HickeyDA.Synonymousco

donusageissubjecttoselectioninthermophilicbacte ria[J].NucleicAcidsResearch,2002,30(19):4272-4277.

[15]HarrisonBD,RobinsonDJ.Naturalgenomicandan tigenicvariationinwhitefly transmittedgeminiviruses

(Begomoviruses)[J].AnnualReviewofPhytopa thology,1999,37:369-398.

Allgememes于50%,而单子叶植物往往具有较高的GC3值。

双生病毒科中,多数侵染单子叶植物的玉米线条病毒属病毒也具有较高的GC3值,而侵染双子叶植物的双生病毒的GC值较低。可见,病毒和寄主植物很巧合地有着相似的GC3值。对应分析和聚类分析结果均表明侵染单子叶植物和侵染双子叶植物两类病毒之间的密码子使用具有明显差异,说明双生病毒密码子使用模式同其所侵染的寄主是单子叶或双子叶植物有着极为密切的关系。可见,双生病毒的密码子使用模式还受到寄主基因组环境的影响,具有一定的寄主特异性。

亲缘关系较近的物种常表现出相似的密码子使用频率。因此,基于密码子使用频率的聚类树状图常可用于推测不同物种、不同基因,以及物种和基因之间在密码子使用方面的相似度或亲缘性,也可推测不同物种之间的进化关系。研究发现,基于密码子使用频率的聚类树状图在一定程度

[5]

上还优于基于基因组的系统发生进化树。从本文聚类分析结果看,可以很明显地区分双生病毒中侵染单子叶植物和双子叶植物的病毒;对菜豆金色花叶病毒属中进化关系上较远的新世界病毒和旧世界病毒亦能明确区分。据此推测,番茄伪曲顶病毒和菜豆金色花叶病毒属中的康查纳布里番茄黄曲叶病毒之间可能存在亲缘或进化关系;菜豆金色花叶病毒和属内其它病毒之间的亲缘关系较远。上述研究结果对于在分子水平上研究病毒进化并提出分类依据具有重要意义。参考文献

[1] SharpPM,

CoweE,HigginsDG,

etal.Codon

usagepatternsinEscherichiacoli,Bacillussubtilis,Saccharomycescerevisiae,Schizosaccharomycespombe,DrosophilamelanogasterandHomosapiens;areviewoftheconsiderablewithin speciesdiversity[J].NucleicAcidsResearch,1988,16(17):8207-8211.[2] ChiapelloH,LisacekF,CabocheM,etal.CodonusageandgenefunctionarerelatedinsequencesofAra

bidopsisthaliana[J].Gene,1998,209(1-2):GC1-GC38.[3] LiuQP,FengY,DongH.Comparativestudieson

synonymouscodonusagebiasintwentyspecies(in

ine[lofv[1]

488

seriouscropthreat[J].(5446):1835.

Science,

1999,

植物病理学报286

38卷

denceanalysis[M].London:AcademicPress,1984.

[25]NayaH,RomeroH,CarelsN,etal.Translationalse lectionshapescodonusageintheGC richgenomesof

Chlamydomonasreinhardtii[J].FEBSLetters,2001,501(2-3):127-130.

[26]GuptaSK,BhattacharyyaTK,GhoshTC.Synony

mouscodonusageinLactococcuslactis:mutationalbiasversustranslationalselection[J].JournalofBio molecularStructureandDynamics,2004,21(4):527-536.

[27]SharpPM,LiWH.Thecodonadaptationindex

ameasureofdirectionalsynonymouscodonusagebias,anditspotentialapplications[J].NucleicAcidsRe search,1987,15(3):1281-1295.

[28]SauK,GuptaSK,SauS,etal.Synonymouscodon

usagebiasin16Staphylococcusaureusphages:Impli cationinphagetherapy[J].VirusResearch,2005,13(2):123-131.[29]BulmerM.Arecodonusagepatternsinunicellularor

ganismsdeterminedbyselection mutationbalance?[J].JournalofMolecularBiology,1988,1(1):15-26.

[30]MiyasakaH.TranslationinitiationAUGcontextvarieswithcodonusagebiasandgenelengthinDrosophilamelanogaster[J].JournalofMolecularEvolution,2002,55(1):52-64.[31]MurrayEE,LotzerJ,EberleM.Codonusagein

plantgenes[J].NucleicAcidsResearch,1989,17

(2):477-498.

[17]MorionesE,Navas CastilloJ.Tomatoyellowleafcurl

virus,anemergingviruscomplexcausingepidemicsworldwide[J].VirusResearch,2001,71(1-2):123-134.

[18]MansoorS,BriddonRW,ZafarY,etal.Geminivi

rusdiseasecomplexes:anemergingthreat[J].TrendsinPlantScience,2003,8(3):128-134.[19]MansoorS,ZafarY,BriddonRW.Geminivirusdi

seasecomplexes:thethreatisspreading[J].TrendsinPlantScience,2006,11(5):209-212.[20]PringleCR.Theuniversalsystemofvirustaxonomy,updatedtoincludethenewproposalsratifiedbytheIn

ternationalCommitteeonTaxonomyofVirusesduring1998[J].ArchivesofVirology,1999,144(2):421-429.

[21]FauquetCM,BriddenRW,BrownJK,etal.Revi sionoftaxonomiccriteriaforspeciesdemarcationin

theGeminiviridaefamily,andanewupdatedlistofbe gomovirusspecies[J].ArchivesofVirology,2008,153(4):783-821.[22]WrightF.The effectivenumberofcodons usedinagene[J].Gene,1990,87(1):23-29.

[23]SharpPM,LiWH.Anevolutionaryperspectiveon

synonymouscodonusageinunicellularorganisms[J].JournalofMolecularEvolution,1986,24(1-2):28-38.[24]GreebacreMJ.Theoryandapplicationsofcorrespon

责任编辑:于金枝

植物病理学报

ACTAPHYTOPATHOLOGICASINICA 38(5):478 488(2008)

双生病毒的同义密码子用法及其进化分析

徐晓忠,刘庆坡,樊龙江,周雪平

(1浙江大学农业与生物技术学院,杭州310029;

2

1211*

浙江林学院农业与食品科学学院,临安311300)

摘要:对双生病毒编码基因的变异进行了密码子用法分析,推测双生病毒基因的表达水平普遍不高,而外壳蛋白基因的表达水平相对较高,它们在密码子第3位上偏好使用A或T。双生病毒的密码子用法主要受到突变偏好和翻译选择等因素的影响。双生病毒的密码子使用具有基因特异性和一定程度的寄主特异性。基于相对同义密码子使用频率的聚类分析可以很好反映侵染单子叶植物和双子叶植物双生病毒之间的差异,也在一定程度上反映出双生病毒之间的亲缘关系。关键词:双生病毒;密码子用法;相对同义密码子使用频率;聚类分析;进化

Analysisonsynonymouscodonusageandevolutioningeminiviruses XUXiao zhong,LIU

Qing po,FANLong jiang,ZHOUXue ping

ty,

Hangzhou

310029,

China;

2

1

211

(1CollegeofAgricultureandBiotechnology,ZhejiangUniversi Agriculture

and

Food

Science,

Zhejiang

Forestry

Schoolof

University,Lin an311300,China)

Abstract:Synonymouscodonusagevariationhadbeeninvestigatedinprotein codinggenesofgeminiviruses.Mostofthegeneswerespeculatedtobelowlyexpressed,butcoatprotein(CP)genewasconsideredasrela tivelyhighlyexpressedone,whichpreferredtousethosecodonsendingwithAorT.Thecodonusagevaria tioningeminiviruseswasinfluencedbyseveralfactorssuchasmutationbiasandtranslationalselection.Thecodonusagepatternsingeminivirusesweregene specificandcertainhost specific.Clusteranalysisbasedonrelativelysynonymouscodonusage(RSCU)couldefficientlyandeffectivelyreflectthedifferencebetweenthemonocot infectinganddicot infectinggeminiviruses,andtoacertainextentreflecttheevolutionaryrelation shipamongthem.

Keywords:geminivirus;codonusage;relativelysynonymouscodonusage;clusteranalysis;evolution

中图分类号:

S432.41 文献标识码:A 文章编号:

0412 0914(2008)05 0478 11

遗传密码是指DNA或mRNA中的核苷酸序列与其所编码蛋白质中氨基酸序列之间的对应关系,包括61种编码氨基酸的有义密码子和3种通常不编码任何氨基酸的终止密码子(UAA、UAG和UGA)。一般每种氨基酸对应一种或多种(最多6种)密码子。编码同一种氨基酸的密码子称为同义密码子。在蛋白质合成过程中编码氨基酸的同义密码子并不被随机使用。大量研究表明,不同物种或同一物种的不同基因之间都在密码子使

用上存在明显偏好

[1~5]

。密码子使用偏性主要受

到突变偏好、翻译选择、蛋白质二级结构、复制和转录选择、蛋白质疏亲水性以及外部环境等多种因素

[6~14]

的影响。

双生病毒(Geminiviruses)是一类具有孪生颗粒形态的单链环状DNA病毒,通常发生在热带、亚热带地区,由昆虫介体以持久性方式传播,大多

[15]

侵染寄主植物的韧皮部组织。近年来,该类病毒在许多国家严重危害蕃茄、木薯、棉花和玉米等

收稿日期:2007 12 08;修回日期:2008 06 23

基金项目:国家自然科学基金资助项目(30530520);高等学校科技创新工程重大项目培育资金资助项目(705025)通讯作者:周雪平,教授,主要从事植物病毒学研究工作;E mai:[email protected]

第一作者:徐晓忠(1973-),男,浙江德清人,在读博士,主要从事植物病毒学和生物信息学研究;E mai:[email protected]

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

[16~19]

479

经济作物,甚至导致死亡。因此,对双生病的情况下,依据样品的多变量数据集所对应空间的相邻性或相似性对样品进行分类的方法。本文采用系统聚类法(hierarchicalclusteranalysis),即将n个样品中的每一个样品看作一个类,然后计算各样品之间的距离,并选择距离最小的样品合并成一个新类,随后计算新类与其它类之间的距离,再将距离最近的类别进行合并,如此循环下去直至所有样品合并为一类为止。在系统聚类法中主要涉及距离测度和聚类方法。常用的距离测度有欧氏距离、绝对距离、明考夫斯基距离、方差加权距离和马氏距离。聚类方法主要有最短距离法、最长距离法、中间距离法、重心法和类平均联结法。本试验采用分析软件SPSSv11.5中欧氏距离平方(SquaredEuclideanDistance)和类平均联结法(Averagelink agebetweengroups)来进行系统聚类。

由于供试菜豆金色花叶病毒属病毒很多,为避免冗余,本文根据不同地域、不同寄主,以及新、旧世界病毒等因素,选择28种菜豆金色花叶病毒属病毒和其它3个属的双生病毒一起进行了基于密码子使用频率的聚类分析(表1)。为分析方便对每种双生病毒给定一个对应的编号。1.3 分析密码子使用的主要指标

1.3.1 GC、GC3值 GC值为基因中G和C占所有碱基的百分比。GC3值是除蛋氨酸、色氨酸和终止密码子外,G和C出现在第3位密码子位置的频率。

1.3.2 有效密码子数(Nc,effectivenumberofco dons) Nc值能反映密码子家族中同义密码子非均衡使用的偏好程度。其值介于20-61之间,Nc值越接近20表示密码子被非随机使用的程度越高

[22]

毒的研究已受到各国研究人员的广泛关注。目前除了对双生病毒的主要症状、寄主范围、地理

[20,21]

分布、传播途径、抗原特性等方面的研究外,有关双生病毒的基因组结构和基因功能等方面的研究也已陆续展开。许多双生病毒基因组测序的陆续完成也为在分子水平上研究该类病毒的进化关系、病毒分类、阐明病毒和寄主细胞之间的作用机理等打下了基础。目前,有关双生病毒密码子使用方面的研究尚无报道。本文根据已知的双生病毒基因组序列,分析了双生病毒的密码子使用模式,并采用聚类分析的方法研究了它们之间的进化关系。

1 材料与方法

1.1 序列数据

根据国际病毒分类委员会双生病毒科研究组提供的双生病毒分类信息查询美国NCBI网站的RefSeq数据库,采用GenBank格式下载并建立164种供试双生病毒的全基因组数据库。本试验供试双生病毒绝大多数采用登录格式以 NC_ 开头的RefSeq数据库中参考序列,个别因未查询到对应参考序列而仍采用其原始登录号的序列。编写PERL程序共提取出1011个蛋白编码基因的变异,从中筛选出994个基因变异作为供试材料进行密码子使用模式的分析。筛选标准为:(1)所选用的基因应具有完整的CDS;(2)排除密码子数小于80的基因;(3)排除在RefSeq数据库中注释不明确或注释为推测(hypothetica1)的蛋白基因。1.2 分析方法

利用软件CodonWv1.4.2(http://source forge.net/projects/codonw/)计算供试病毒中编码基因的GC、GC3值和有效密码子数(Nc,effectivenumberofcodons)等指标并进行对应分析(CA,correspondenceanalysis)。编写PERL程序统计基因的相对密码子使用频率(RSCU,relativesynony mouscodonusage)和密码子适应指数(CAI,codonadaptationindex)。采用多元分析软件SPSSv11.5中的Spearman方法进行相关显著性测验和基于密码子使用频率的聚类分析。

[21]

1.3.3 相对同义密码子使用频率(RSCU,relativesynonymouscodonusage) RSCU值表示基因样本中某一密码子的使用频次与其在同义密码子家

族中的期望频次的比值。若某一氨基酸的同义密码子使用没有偏好,即密码子使用频率和期望频率接近,则该密码子的RSCU值等于1;如果某一密码子的RSCU值高于1,表明该密码子的使用频率高于期望频率,反之则低于期望值。RSCU值和氨基酸的使用及密码子的丰度无关,它能直观地反映[23]

480

植物病理学报

38卷

Table1 Thegeminivirusesusedforclusteranalysisinthisstudy

No.1*2345*6*78*910*[***********]*2021*2223

*

Species

AbutilonmosaicvirusAfricancassavamosaicvirusAgeratumleafcurlvirusAgeratumyellowveinvirusBeangoldenmosaicvirusCabbageleafcurlvirusChillileafcurlvirusCorchorusyellowveinvirusCowpeagoldenmosaicvirusCucurbitleafcrumplevirusEupatoriumyellowveinvirusEuphorbialeafcurlvirusHoneysuckleyellowveinvirusLinderniaanagallisyellowveinvirus

LudwigiayellowveinvirusMalvastrumleafcurlvirusMalvastrumyellowveinvirus

PapayaleafcurlvirusPeppergoldenmosaicvirusPepperleafcurlvirusRhynchosiagoldenmosaicvirusSidagoldenmosaicvirus

SidaleafcurlvirusSidayellowveinvirusSquashleafcurlvirusStachytarphetaleafcurlvirusTomatoleafcurlvirus

TomatoyellowleafcurlKanchanaburivirus

Beetcurlytopvirus

BeetmildcurlytopvirusBeetseverecurlytopvirusHorseradishcurlytopvirusSpinachcurlytopvirusBeanyellowdwarfvirusChlorisstriatemosaicvirusDigitariastreakvirusMaizestreakvirusMiscanthusstreakvirusPanicumstreakvirusSugarcanestreakEgyptvirusSugarcanestreakReunionvirus

SugarcanestreakvirusTobaccoyellowdwarfvirus

Wheatdwarfvirus

AcronymAbMVACMVALCuVAYVVBGMVCabLCuVChiLCuVCYVVCPGMVCuLCrVEpYVVEuLCVHYVVLAYVVLuYVVMaLCVMYVVPaLCuVPepGMVPepLCVRhGMVSiGMVSiLCuVSiYVVSLCVStaLCuVToLCVTYLCKaVBCTVBMCTVBSCTVHrCTVSpCTVBeYDVCSMVDSVMSVMiSVPanSVSSEVSSREVSSVTYDVWDV

SourceGermanyKenyaChinaSingaporeBrazilUSAPakistanVietnamNigeriaUSAJapanChinaUKChinaChinaChinaChinaIndiaMexicoThailandHondurasUSAChinaHondurasUSAChinaAustraliaThailandUSAUSAUSAUSAUSASouthAfricaAustraliaVanuatuSouthAfricaJapanSouthAfricaEgyptFrance(Reunion)SouthAfrica

AustraliaSwedenUSA

GenusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusBegomovirusCurtovirusCurtovirusCurtovirusCurtovirusCurtovirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusMastrevirusTopocuvirus

RefSeqNC_001928NC_001467NC_006384NC_004626NC_004042NC_003866NC_004628NC_006358AF029217NC_002984NC_003556NC_005319NC_005807AY795900NC_007210NC_007724NC_004634NC_004147NC_004101NC_000882NC_004643NC_002046NC_007638NC_004661NC_001936NC_004091NC_003896NC_005812NC_001412NC_004753NC_004754NC_002543NC_005860NC_003493NC_001466NC_001478NC_001346NC_003379NC_001647NC_001868NC_004755NC_003744NC_003822NC_003326NC_003825

24*25*[***********][***********]44

45Tomatopseudo curlytopvirusTPCTVNTforewWlbegomove

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

481

1.3.4 密码子适应指数(CAI,codonadaptationin

[23]

dex) 根据Sharp等的定义,CAI是在比较某基因和该物种高表达基因在密码子使用上有没有差別,并用来作为该基因在密码子使用上有没有最合适的指标。现已证明,CAI值最接近于基因表达水平的理论值,并已广泛应用于基因表达水平的测[24,25]量。CAI值的范围在0和1之间。CAI值越大表示密码子被偏好使用的程度越强烈,相应地其

[26]

基因表达水平就越高。

1.4 对应分析(CA,correspondenceanalysis)对应分析是目前最常用的多变量统计分析方法。它可以找出基因样本变量数据的变化趋势,并根据这些趋势将基因沿连续的轴分布。对应分析采用的变量数据为RSCU值。对应分析中,

[27]

的密码子使用偏好程度普遍不高,基因表达水平也相应不高。

双生病毒各属GC3和GC值的平均值非常靠近,表明GC3值主要受双生病毒GC值的影响。另外,玉米线条病毒属病毒的GC3和GC值明显高于其余3个属,分别为0.52%和0.51%,暗示玉米线条病毒属病毒应有着不同于其余3个属病毒的密码子使用模式。

2.2 影响双生病毒密码子使用变异的主要因素

为探究双生病毒基因间的密码子使用变异,作了双生病毒基因的Nc plot分布图(图1)。图中连续曲线表示在没有选择存在的条件下,同义密码子被随机使用时Nc值和GC3值之间的理论对应关系。如果密码子的碱基组成偏好(GC3值)作为Nc值的唯一决定因素,那么,Nc值将始终位于或略低于该理论曲线上。如果碱基组成偏好不是影响基因密码子选择使用的唯一因素,那么基因的实际分布与理论分布之间的比较是可以反映出对密码子使用的影响因素

[22]

样本中所有基因被分布在一个59维(59个正义密码子)的向量空间中,应用这些结果能够探究基因间RSCU值的变异趋势,从中可判别影响基因密码子使用的主要因素。

2 结果与分析

2.1 双生病毒密码子使用的变异

首先分析了164种双生病毒的994个基因的Nc值、GC3和GC值(表2)。结果发现双生病毒的Nc值在39.23和61之间变动,平均为54.66;GC3和GC值的变动范围分别在0.25%~0.69%和0.34%~0.59%之间,平均都为0.45%。可见,双生病毒的Nc值普遍较高,最低也有39.23。一般来说,Nc值越小表明该基因的密码子使用偏好程度越大,相应地基因表达水平也就越高。将Nc值小于30和大于55的基因也被研究人员用来预

[28]

测高表达和低表达基因。由此推测,双生病毒

。一般认为,距离理论曲

线较近基因的密码子使用偏性主要受到突变偏性的影响,而距离理论曲线越远的基因受到翻译选择压力和其它因素的影响就越大,基因在同样GC3值的情况下,其Nc值就越小。

双生病毒基因Nc plot分布发现,除了少部分基因恰好落在或略低于理论曲线上外,大部分基因位点均很好地落在了理论曲线的下方,有的还与理论曲线的垂直距离相去甚远。这说明双生病毒基因有着不同于GC3值所致的密码子使用模式,还受到突变偏好等其它因素的影响,部分基因落在与理论曲线垂直距离很远的区域,暗示翻译选择的压

Table2 Theaverageofeffectivenumberofcodons(Nc),thefrequenciesofG+Catthe

3rdpositionsofcodons(GC3)andthefrequencyofG+Cinacodinggene(GC)

valuesfortheprotein codinggenesofgeminiviruses

GenusBegomovirus**MastrevirusCurtovirusTopocuvirus

Total

Numberoftestspecies

1471151164

*

Nc

GC3*(%)0.45(0.25-0.62)0.52(0.34-0.69)0.41(0.31-0.59)0.42(0.33-0.55)0.45(0.25-0.69)

GC*(%)0.45(0.34-0.54)0.51(0.44-0.59)0.42(0.36-0.50)0.44(0.37-0.49)0.45(0.34-0.59)

54.85(39.23-61)53.07(43.05-61)51.51(40.63-61)55.09(49.62-61)54.66(39.23-61)

l B.

482

植物病理学报

38

Fig.1 Relationshipbetweentheeffectivenumberofcodons(Nc)andthefrequenciesofG+Catthe3rdpositionsofcodons(GC3)for994codinggenes( 80codonslong)of164geminiviruses

Thegeminivirusesaredividedintofourgroups,Begomovirus(B),Mastrevirus(M),Curtovirus(C)andTopocuvirus(T).

ThecontinuouscurverepresentstheexpectedcurvebetweenNcandGC3underrandomcodonusage.

力也对这部分基因的密码子使用产生了一定影响。而从不同属基因的分布来看,除玉米线条病毒属病毒因有相对较高GC3值而总体上靠右边分布外,不同属间并没有密码子使用上的明显差异。

根据病毒感染过程推断,病毒中非结构蛋白直接参与或间接调控基因的转录、复制和翻译,表达水平一般不高,而结构蛋白常在感染后期出现,表达量相对较高。将双生病毒结构蛋白(外壳蛋白)基因作为高表达基因样本集来计算基因的CAI值,并将基因CAI值和密码子使用偏性指标以及基因长度作相关分析。研究发现基因表达水平(CAI值)与Nc值、GC3、GC值呈极显著负相关(r=-0.166、-0.254、-0.532,P

用偏好的程度越强烈。高表达基因(外壳蛋白基因)偏好富集A和T,在密码子第3位上也偏好使用A和T。双生病毒的基因长度与CAI值、Nc值的相关系数分别达到极显著正相关和显著负相关(0.397,P

2.3 不同双生病毒的功能相同基因具有相似的

密码子使用模式

对994个双生病毒基因RSCU值进行对应分析,结果第一和第二条向量轴分别能解释密码子使用总变异的11.3%和7.8%。从双生病毒基因在2条向量轴的位置分布看,双生病毒各基因较均匀地散布在第一向量轴两边(图2)。除玉米线条病毒

5期

徐晓忠,等:双生病毒的

同义密码子用法及其进化分析

483

Fig.2 Positionsofthegenesof164geminivirusesintheplotoffirsttwomajoraxesbycorrespondenceanalysisofrelativelysynonymouscodonusage(RSCU)values

Thegeminivirusesaredividedintofourgroups,Begomovirus(B),Mastrevirus(M),Curtovirus(C)andTopocuvirus(T).

属病毒基因的分布稍集中外,其它各属病毒基因的分布均较分散,不同属之间病毒基因的密码子使用并未发现明显差异。有趣的是,番茄伪曲顶病毒的6个基因在向量轴上的分布位置相距较远,暗示同一病毒的不同基因应具有不同的密码子使用模式。 为了探究不同病毒的功能相同基因是否有着相同的密码子使用模式,将双生病毒基因中具相同功能的基因进行分组表示(图3)。结果发现病毒外壳蛋白基因AV1(V1)多数聚集在第一向量轴的最右端,症状决定因子AC4(C4)则主要聚集在数轴的左下方,其它不同双生病毒的功能相同基因也都很明显地聚集在一起。这说明双生病毒的密码子使用模式有着很明显的基因特异性。

2.4 双生病毒密码子使用具有一定程度的寄主

特异性

将双生病毒每个种的全基因组所有编码序列拼接起来作为一个样本,对各个病毒样本的密码子,量轴分别能够解释密码子使用总变异的19.7%和

8.1%。从各病毒在2条向量轴上的位置分布看,可以将双生病毒种分成2组,一组主要位于数轴的左下方,全部是玉米线条病毒属中的种;另一组位于数轴的其它部位,包括另外3个属中的种和玉米线条病毒属中其余3个种,分别是小麦矮缩病毒(WDV)、菜豆黄矮病毒(BeYDV)和烟草黄矮病毒(TYDV)(图4)。有意思的是,小麦矮缩病毒位于2组交界处,而菜豆黄矮病毒和烟草黄矮病毒则完全处于另一组内。众所周知,玉米线条病毒属中大部分种均侵染单子叶植物,唯独菜豆黄矮病毒(BeYDV)和烟草黄矮病毒(TYDV)是侵染双子叶植物的,这2种病毒同其它仅侵染双子叶植物的3个属中的种同处于一组内,说明双生病毒密码子使用模式同其所侵染的寄主是单子叶或双子叶植物有着极为密切的关系。至于侵染单子叶植物的小麦矮缩病毒(WDV)何以位于2组的交界处,这是否预示着该病毒从进化关系上源于侵染双子叶植

484

植物病理学报

38

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

485

2.5 基于密码子使用频率的聚类分析

根据表1列出的病毒种,对45种双生病毒进行基于密码子使用频率的聚类分析(图5)。结果发现,供试双生病毒很明显地分为两大类。所有侵染单子叶植物的玉米线条病毒属中的9种病毒(35-42,44)聚在一类,而侵染双子叶植物的其余双生病毒则聚在另外一类,包括菜豆金色花叶病毒属、甜菜曲顶病毒属、番茄伪曲顶病毒属中的全部病毒种,以及侵染双子叶植物的玉米线条病毒属中的2种病毒(34,43)。可见,同样是玉米线条病毒属中的种,由于所侵染寄主是单子叶或双子叶植物的不同,表现在密码子使用上也有很大差异。这再次证明双生病毒的密码子使用具有一定的寄主特异性。

所有侵染双子叶植物的双生病毒又可分为4个亚类:玉米线条病毒属中的菜豆黄矮病毒(BeYDV)和烟草黄矮病毒(TYDV)组成一类;菜豆金色花叶病毒(5)单独作为一类;甜菜曲顶病毒属中的种(29-33)、番茄伪曲顶病毒和菜豆金色花叶病毒属中的康查纳布里番茄黄曲叶病毒聚为一类;其余菜豆金色花叶病毒属中的种形成一类,并由5小类组成。在5小类中,菜豆金色花叶病毒属中新世界病毒分别组成2小类;旧世界病毒则分布在另外3小类中。这说明新世界病毒和旧世界病毒在密码子使用上也有明显差异。从进化关系看,旧世界病毒和新世界病毒之间存在较远的亲缘关系。一般认为进化上亲缘关系较远的物种间,在同义密码子使用上的差异也较大;反之,同义密码子使用上的差异也可反映出物种间的亲缘关系。由此可见,通过基于密码子使用频率的聚类分析可以客观地反映出不同病毒之间的亲缘关系。值得注意的是,番茄伪曲顶病毒(45)和菜豆金色花叶病毒属中的康查纳布里番茄黄曲叶病毒(28)聚类在一起,在密码子使用上表现出很高的相似性,推测它们在进化上应具有较近的亲缘关系。此外,菜豆金色花叶病毒属中的代表种菜豆金色花叶病毒(5)单独成为一类,和属内其它病毒在密码子使用上有着极为明显的差异,暗示菜豆金色花叶病毒和属内其它病毒的亲缘关系较远。对菜豆金色花叶病毒属重复抽样试验的分析结果也和上述推测结论相一致。

3 讨论

生物体中都存在密码子使用的偏好。一般情况下密码子使用偏好和基因表达水平密切相关。通常高表达基因往往具有较强的密码子使用偏性。确定合适的高表达基因作为参照集对于研究该物种的密码子使用模式很重要。一般来说,Nc值越小表明该基因的表达水平越高,Nc值小于30和大于55的基因可被预测为高表达和低表达基因

[28]

但从统计数据看,双生病毒基因的Nc值都在40以上,基因表达水平普遍不高。从图3中可以看出,外壳蛋白基因AV1(V1)大多数聚集在第一向量轴的最右端。对994个双生病毒基因对应分析后的相关分析发现,第一向量轴各基因的位置与Nc值呈极显著负相关(r=-0.094,P

双生病毒基因的Nc plot分布图表明,双生病毒的密码子使用不仅受突变偏好的影响,还受到自然选择的重要影响。往往高表达基因受到自然选择压力更大,迫使它们选择使用一系列主要偏爱密码子来提高翻译速率和精确度,进而优化翻译效率

[29,30]

。相对于双生病毒而言,这些偏爱密码子

又往往对应于寄主体内丰富的tRNA,因此通过分析病毒的密码子使用模式可以来预测寄主细胞中病毒的生存环境。此外,高表达基因对密码子偏好使用的程度更加强烈,暗示密码子用法具有一定的功能含义。研究发现不同双生病毒中具有相同功能的基因,其密码子使用偏性也具有明显的相似性。

Adams等

[4]

发现,植物病毒的基因长度对密

码子使用偏性没有影响。但本研究对双生病毒密码子使用分析发现,基因长度越长,密码子使用的偏好程度越大,基因表达水平越高。这种分析结果上的差异可能和所分析的植物病毒群体有关。

486

植物病理学报

38

Fig.5 Relativelysynonymouscodonusagerelationshiptreeof45

geminivirusesareshowedbydifferentgenera

Dicot andmonocot infectingvirusesarelabeledwithDIandMI,respectively.ThescalebarshowstheSquaredEuclidean

Distancewhilethemaximumarestandardizedby25.Thenumbersorasteriskednumbersrepresentthetestedspeciesas

i=;;.

5期

徐晓忠,等:双生病毒的同义密码子用法及其进化分析

487

人们发现单子叶植物的密码子用法明显不同于双子叶植物

[31]

。双子叶植物的GC3值通常小

tyofAgricultureandForestry(西北农林科技大学学报),2004,32(7):67-71.

[4] AdamsMJ,AntoniwJF.Codonusagebiasamongst

plantviruses[J].ArchivesofVirology,2003,149(1):113-135.

[5] ZhouH,WangH,HuangLF,etal.Heterogeneityin

codonusagesofsobemovirusgenes[J].ArchivesofVirology,2005,150(8):1591-1605.[6] LevinDB,WhittomeB.Codonusageinnucleopoly hedroviruses[J].JournalofGeneralVirology,2000,81(Pt9):2313-2325.

[7] GuptaSK,GhoshTC.Geneexpressivityisthemain

factorindictatingthecodonusagevariationamongthegenesinPseudomonasaeruginosa[J].Gene,2001,273(1):63-70.

[8] GuptaSK,MajumdarS,BhattacharyaTK,etal.

Studiesontherelationshipsbetweenthesynonymouscodonusageandproteinsecondarystructuralunits[J].BiochemicalandBiophysicalResearchCommunica tions,2000,269(3):692-696.

[9] OresiscM,ShallowayD.Specificcorrelationsbe

tweenrelativesynonymouscodonusageandproteinsecondarystructure[J].JournalofMolecularBiology,1998,281(1):31-48.[10]XieT,DingDF.Therelationshipbetween

synonymouscodonusageandproteinstructure[J].FEBSLetters,1998,434(1-2):93-96.

[11]McInerneyJO.Replicationalandtranscriptionalselec

tiononcodonusageinBorreliaburgdorferi[J].Pro ceedingsoftheNationalAcademyofSciencesoftheUSA,1998,95(18):10698-10703.

[12]RomeroH,ZavalaA,MustoH.Compositionalpres

sureandtranslationalselectiondeterminecodonusageintheextremelyGCpoorunicellulareukaryoteEnta moebahistolytica[J].Gene,2000,242(1-2):307-311.

[13]RomeroH,ZavalaA,MustoH.Codonusagein

Chlamydiatrachomatisistheresultofstrand specificmutationalbiasesandacomplexpatternofselectiveforces[J].NucleicAcidsResearch,2000,28(10):2084-2090.[14]LynnDJ,SingerGA,HickeyDA.Synonymousco

donusageissubjecttoselectioninthermophilicbacte ria[J].NucleicAcidsResearch,2002,30(19):4272-4277.

[15]HarrisonBD,RobinsonDJ.Naturalgenomicandan tigenicvariationinwhitefly transmittedgeminiviruses

(Begomoviruses)[J].AnnualReviewofPhytopa thology,1999,37:369-398.

Allgememes于50%,而单子叶植物往往具有较高的GC3值。

双生病毒科中,多数侵染单子叶植物的玉米线条病毒属病毒也具有较高的GC3值,而侵染双子叶植物的双生病毒的GC值较低。可见,病毒和寄主植物很巧合地有着相似的GC3值。对应分析和聚类分析结果均表明侵染单子叶植物和侵染双子叶植物两类病毒之间的密码子使用具有明显差异,说明双生病毒密码子使用模式同其所侵染的寄主是单子叶或双子叶植物有着极为密切的关系。可见,双生病毒的密码子使用模式还受到寄主基因组环境的影响,具有一定的寄主特异性。

亲缘关系较近的物种常表现出相似的密码子使用频率。因此,基于密码子使用频率的聚类树状图常可用于推测不同物种、不同基因,以及物种和基因之间在密码子使用方面的相似度或亲缘性,也可推测不同物种之间的进化关系。研究发现,基于密码子使用频率的聚类树状图在一定程度

[5]

上还优于基于基因组的系统发生进化树。从本文聚类分析结果看,可以很明显地区分双生病毒中侵染单子叶植物和双子叶植物的病毒;对菜豆金色花叶病毒属中进化关系上较远的新世界病毒和旧世界病毒亦能明确区分。据此推测,番茄伪曲顶病毒和菜豆金色花叶病毒属中的康查纳布里番茄黄曲叶病毒之间可能存在亲缘或进化关系;菜豆金色花叶病毒和属内其它病毒之间的亲缘关系较远。上述研究结果对于在分子水平上研究病毒进化并提出分类依据具有重要意义。参考文献

[1] SharpPM,

CoweE,HigginsDG,

etal.Codon

usagepatternsinEscherichiacoli,Bacillussubtilis,Saccharomycescerevisiae,Schizosaccharomycespombe,DrosophilamelanogasterandHomosapiens;areviewoftheconsiderablewithin speciesdiversity[J].NucleicAcidsResearch,1988,16(17):8207-8211.[2] ChiapelloH,LisacekF,CabocheM,etal.CodonusageandgenefunctionarerelatedinsequencesofAra

bidopsisthaliana[J].Gene,1998,209(1-2):GC1-GC38.[3] LiuQP,FengY,DongH.Comparativestudieson

synonymouscodonusagebiasintwentyspecies(in

ine[lofv[1]

488

seriouscropthreat[J].(5446):1835.

Science,

1999,

植物病理学报286

38卷

denceanalysis[M].London:AcademicPress,1984.

[25]NayaH,RomeroH,CarelsN,etal.Translationalse lectionshapescodonusageintheGC richgenomesof

Chlamydomonasreinhardtii[J].FEBSLetters,2001,501(2-3):127-130.

[26]GuptaSK,BhattacharyyaTK,GhoshTC.Synony

mouscodonusageinLactococcuslactis:mutationalbiasversustranslationalselection[J].JournalofBio molecularStructureandDynamics,2004,21(4):527-536.

[27]SharpPM,LiWH.Thecodonadaptationindex

ameasureofdirectionalsynonymouscodonusagebias,anditspotentialapplications[J].NucleicAcidsRe search,1987,15(3):1281-1295.

[28]SauK,GuptaSK,SauS,etal.Synonymouscodon

usagebiasin16Staphylococcusaureusphages:Impli cationinphagetherapy[J].VirusResearch,2005,13(2):123-131.[29]BulmerM.Arecodonusagepatternsinunicellularor

ganismsdeterminedbyselection mutationbalance?[J].JournalofMolecularBiology,1988,1(1):15-26.

[30]MiyasakaH.TranslationinitiationAUGcontextvarieswithcodonusagebiasandgenelengthinDrosophilamelanogaster[J].JournalofMolecularEvolution,2002,55(1):52-64.[31]MurrayEE,LotzerJ,EberleM.Codonusagein

plantgenes[J].NucleicAcidsResearch,1989,17

(2):477-498.

[17]MorionesE,Navas CastilloJ.Tomatoyellowleafcurl

virus,anemergingviruscomplexcausingepidemicsworldwide[J].VirusResearch,2001,71(1-2):123-134.

[18]MansoorS,BriddonRW,ZafarY,etal.Geminivi

rusdiseasecomplexes:anemergingthreat[J].TrendsinPlantScience,2003,8(3):128-134.[19]MansoorS,ZafarY,BriddonRW.Geminivirusdi

seasecomplexes:thethreatisspreading[J].TrendsinPlantScience,2006,11(5):209-212.[20]PringleCR.Theuniversalsystemofvirustaxonomy,updatedtoincludethenewproposalsratifiedbytheIn

ternationalCommitteeonTaxonomyofVirusesduring1998[J].ArchivesofVirology,1999,144(2):421-429.

[21]FauquetCM,BriddenRW,BrownJK,etal.Revi sionoftaxonomiccriteriaforspeciesdemarcationin

theGeminiviridaefamily,andanewupdatedlistofbe gomovirusspecies[J].ArchivesofVirology,2008,153(4):783-821.[22]WrightF.The effectivenumberofcodons usedinagene[J].Gene,1990,87(1):23-29.

[23]SharpPM,LiWH.Anevolutionaryperspectiveon

synonymouscodonusageinunicellularorganisms[J].JournalofMolecularEvolution,1986,24(1-2):28-38.[24]GreebacreMJ.Theoryandapplicationsofcorrespon

责任编辑:于金枝


相关内容

  • 不同作物FAD2基因密码子偏好性分析
  • 摘要:本研究运用多种软件对12种作物的 FAD2基因进行密码子偏好性分析.结果表明:FAD2基因在12种作物中密码子使用偏好性差异很大,禾本科作物玉米.水稻.高粱的FAD2基因有效密码子数(Effective Number of Codons, ENC)在30左右,为偏好性很强的基因:油料作物油菜和 ...

  • 遗传学总结
  • 遗传学总结 第一章 绪论 遗传(heredity, inheritance )指生物世代间相似的现象(名词)或指生物性状或基因(注意二者的不同)从上代向下代的传递过程(动词) 变异(variation )生物个体间的差异(名词)生物的性状或基因从上代向下代传递时发生变化的过程(动词) (并非所有的变 ...

  • 必修2同步训练
  • 1.以基因型为Aa 的水蜜桃为接穗,嫁接到相同基因型的水蜜桃砧木上,所结的水蜜桃果 肉基因型是杂合体的几率为 A .0 B .25% C .50% D .100% 2.人类的多指(A )对正常指(a )为显性,属于常染色体遗传病,在一个多指患者的下 列各个细胞中不含或可能不含显性基因A 的是 ①神经 ...

  • 分子钟假说
  • 分子钟假说 一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间) 有一定的数量关系. 分子钟 (Molecular clock) 1962年,祖卡坎德尔(Zuckerkandl)和鲍林(Pauling)在对比了来源于不同生物系统的同一血红蛋白分子 ...

  • 变异.育种和进化
  • 专题六 变异.育种和进化 考点一 可遗传的变异 1.基因突变对生物性状的影响 (1)基因突变改变生物性状:突变间接引起密码子改变,决定的氨基酸可能改变,最终表现为蛋白质的功能改变,从而影响生物的性状,如镰刀型细胞贫血症. 提示: ①碱基增添或缺失往往比替换对蛋白质结构的影响范围大.对插入或缺失位置前 ...

  • 分子生物学名词解释
  • 重要名词:(下划线的尤其重要) 1. 常染色质: 细胞间期核内染色质折叠压缩程度较低,碱性染料着色浅而均匀的区域,是染色质的主体部分.DNA主要是单拷贝和中度重复序列,是基因活跃表达部分. 2. 异染色质:细胞间期核内染色质压缩程度较高,碱性染料着色较深的区域.着丝粒.端粒.次缢痕, DNA主要是高 ...

  • 生物学业水平测试复习提纲(二)
  • 汕头一中2011-2012学年度高二生物学业水平测试提纲(二) 必修2 1. 减数分裂的概念(理解) 进行有性生殖的生物在产生成熟生殖细胞时,进行的染色体数目减半的特殊的有丝分裂. ............ 在减数分裂过程中,染色体只复制一次,而细胞分裂两次, 减数分裂的结果:成熟生殖细胞中的染色体 ...

  • 生命科学知识点
  • 第一节 走进生命科学 一.走进生命科学的世纪 1.生命科学领域中我国和其他国家取得的重大成果 我国的重要成就: 古代:贾思鍶(6世纪)--<齐民要术> 李时珍(16世纪)--<本草纲目>. 现代:在世界上首次人工合成具有生物活性的蛋白质--结晶牛胰岛素 人工合成酵母丙氨酸转移 ...

  • 生物必修二复习提纲1--6
  • 学 习 卷 科目 生物 设计者 高二 年级 班 学生姓名 课题:必修二复习提纲1--6 2.1 遗传的细胞基础 考点1 细胞的减数分裂 1. 减数分裂的概念 减数分裂是指有性生殖的生物在产生成熟生殖细胞时,进行的染色体数目减半的细胞分裂.在减数分裂过程中,染色体只复制一次,而细胞分裂两次.减数分裂的 ...