复杂网络理论在基因调控网络中的应用

第11卷第5期重庆科技学院学报（自然科学版）2009年10月

复杂网络理论在基因调控网络中的应用

周晖杰

（宁波大学，宁波315212）

摘

要：无标度网络理论的提出与发展为研究基因调控网络提供了有力的理论基础。一方面，研究发现许多生物网

络和非生物网络一样都具有无标度特性和小世界结构；另一方面，生物网络和非生物网络的幂律衰减指数γ不同，考虑到复制是生物进化的动力，提出了不同于BA模型的复制增长模型和带权值增长的网络模型，并对模型进行了数值模拟，结果显示γ≈2，符合生物网络的一些研究结果。关键词：大肠杆菌；生物信息；基因调控网络；无标度网络中图分类号：O242

文献标识码：A

文章编号：1673-1980（2009）05-0141-04

随着人类基因组计划及许多模式生物测序工程的相继完成，产生了“海量”的生物序列数据。然而数据并不等于信息，并且通过对生物功能的分析，发现基因与蛋白质很少单独起作用，而是倾向于成组地通过网状的交互作用而影响生物系统的功能，因此基因组的研究也从结构基因组转向了功能基因组的研究，通过对基因组的分析来了解生物系统的功能已成为后基因组时代的主要目标。开发并利用有效的数据分析工具，将序列信息转换成生物化学和生理学知识，弄清它们所蕴涵的结构和功能信息，彻底了解它们所代表的生物学意义，是后基因组学研究的关键所在，其中包括基因调控网络，这是一个崭新的研究领域，本文的主要内容是针对这种复杂的调控网络，从整个网络的角度作了初步的探索和研究。

网络，在这个复杂的生物过程中，主要调控元件包含了基因调控的顺式作用元件和反式作用因子。

（2）基因表达的组织特异性。在基因组中所含的全部基因也不是以同样的强度同时表达的。大肠杆菌基因组含有约4000个基因，一般情况下只有5%～

10%在高水平转录状态，其他基因有的处于低水平

表达，有的就暂时不表达；不同组织细胞中不仅表达的基因数量不相同，而且基因表达的强度和种类也各不相同。

（3）基因表达的阶段特异性。在细胞分化发育的不同时期，基因表达的情况是各不相同。

从系统学的角度来看，基因的表达与调控是一个错综复杂的关系网络，一个基因通过表达产物影响另一个基因及其表达，调控过程也是物质迁移、能量交换、信息交流的过程。但是生物的基因表达又不是杂乱无章的，而是受着严密、精确调控的。尽管我们现在对调控机理的奥妙所知还不多，但已经可以认识到，不仅生命的遗传信息是生物生存所必需，而且遗传信息的表达与调控也是生命本质所在，分析整体网络的调控拓扑结构和内在的调控机理是极其重要的。

1基因调控网络是一个复杂网络

以大肠杆菌这种原核生物的基因调控网络为例，

其基因组的结构及组成元件上相对于真核生物来说简单，比如：原核生物转录是一种RNA聚合酶、不同启动子间有相当大的同源性、聚合酶直接同启动子结合、没有增强子、启动子通常位于基因的上游、转录单位常常含有多个基因，但是原核生物基因表达也是个复杂过程[1]，其中包含以下几个主要的基因机制：

（1）基因产物之间的相互作用。多个调控元件及靶基因之间相互作用，形成一个复杂的基因调控

收稿日期：2009-02-21

基金项目：宁波大学校科研基金资助项目（xy0700066）

2从复杂网络系统角度来研究的意义

基因调控网络研究的方法主要是利用基因表达

和调控所产生的数据，运用数据挖掘技术和智能算法等方法，反向分析和挖掘基因、蛋白质和大分子等各种

作者简介：周晖杰（1979-），男，浙江奉化人，硕士，宁波大学科技学院讲师,研究方向为生物信系与复杂网络。

··141

周晖杰：复杂网络理论在基因调控网络中的应用

调控和被调控元件间的关联信息，并试图以复杂系统的观点为出发点，从基因、蛋白质等之间关系的角度来揭示和再现它们之间相互作用的网络拓扑结构，揭示其复杂的作用机理及其功能信息。然而，基因调控网络的研究在许多方面尚处于尝试和探索阶段，许多数据挖掘技术、智能算法都不能达到很好的预测和分析效果；因此，后基因组信息学研究应以综合作为特性，以网络分析作为其基础，将已知基因的序列与功能联系在一起，其研究应涉及理解生命的基本规律及其在生物医学上的应用[2]。例如，在疾病研究上，要从单个基因致病机理的研究转向多个基因发病机理的研究，其研究的意义比基因组信息学更为深刻。另外，在网络的构建上，应该充分发掘生物网络所具有的一些内在机制，比如通过DNA复制的增长，然而，目前许多提出的模型都不能很好地反映出生物网络的这种内在机制。这是一项紧迫而又十分重要的工作，有待科研工作人员的进一步研究和改进。

图1

别为1和5，在每一时间步长内，都增加一个新的节点，其与网络中老的节点分别择优连接1条边和5条边（不能重复连接），其结果如图1和图2所示。

m0=1，m=1，时间步长t=120000

3无标度网络理论

现实世界中许多系统都可以用复杂网络来描

述,网络节点为系统元素,边为元素间的互相作用和相互联系，如一些生物网络：蛋白质相互作用网络、新陈代谢网络、基因组相关网络、蛋白质域网络、基因协同调控网络以及啤酒酵母基因调控网络；非生物网络：万维网、互联网、电影演员合作网、科研合作网络、电话网、引文网以及电力网等等。

近些年来发现大量的真实网络既不是规则网络，也不是随机网络[3]，而是具有增长和择优机制的无标度网络[4]。由此提出了BA模型，其演化规则为：

（1）增长：开始给定m0个孤立或全连通的点，在每一个时间步长，增加一个新节点；

（2）择优：新节点与网络中旧节点择优连接m（m≤

图2

m0=5，m=5，时间步长t=120000

4基因调控网络的构建

转录因子是基因转录调控中的一种基本元件，

以便绑定DNA结合位点并调控相应的靶基因（转录基因）。在基因表达过程中，一方面，一些靶基因能被多个转录因子调控，另一方面，多个转录因子可以调控一个靶基因，这种基本元件通过这两种方式形成一个复杂的网络。在大肠杆菌中，相当多数目的转录因子之间、转录因子与靶基因之间的调控作用已经通过实验被发现，可以查询表1中列出的基因调控网络相关数据库。

利用Pajek软件来做大肠杆菌基因调控网络分析，这是一种用于大尺度网络分析的软件，经过分析得大肠杆菌转录因子之间相互作用网络如图3所示。

大肠杆菌转录因子之间相互作用网络图3与随机网络图相比，可以看出，在图3中crp、hns等几个少

m0）条边，这里不能重复连接，连接节点i的概率为Π

（ki）=ki

Σk，这里k为节点i的度。

其度相等的节点个数服从幂律分布N（k）~k-γ，这里k表示节点的度，N（k）表示网络中度为k的节点个数，γ表示衰减指数，γ≈3。

对初始节点个数的不同，以及每个时间步长内增加的新节点其择优连接边数的不同（每个模拟运行的次数为100次，运行次数越多，越具有统计意义）。我们做了两个不同的模拟，其初始节点个数分··142

表1

名称

基因调控网络相关数据库

功能

转录调控子与操纵元组织基因调控转录因子预测基因调控序列分析

京都基因与基因组百科全书基因组的编码

啤酒酵母转录调控网络

网址

RegulonDBBIOBASETESSGRESAKEGGGTLTRN

http://www.cifn.unam.mx/http://www.gene-regulation.de/http://www.cbil.upenn.edu/tess/

http://compel.bionet.nsc.ru/new/index.htmlhttp://www.genome.jp/kegg/

http://doegenomestolife.org/index.shtmlhttp://web.wi.mit.edu/young/regulator_network

的集群系数C，即一个节点连接到其他两个节点时，那么其他两个节点往往彼此间也直接连接了；另一方面，在这些生物网络中，平均最短路径L是小的。

显然，无标度、小世界结构在细胞内网络是很典型的。

5复制增长模型和带权值增长模型

分析以往人们对大量实际网络的实证研究结果

量的调控因子具有相对高的节点连接度，而对于其他许多节点来说连接度很小。也就是说，这个相互作用网络的节点度分布具有无标度特性，其度分布图与无标度网络图1、图2相似。

这与蛋白质相互作用网络（这里节点是各种蛋白质，当两个蛋白质在物理意义上相互作用时，则在网络中用线连起来），如图4（来自PIR数据库）和新陈代谢网络等生物网络研究具有类似的结果。

发现，对于生物网络来说，幂律衰减指数在2附近，一般为γ∈（1，2.5），而对于非生物网络（互联网、科研合作网络、电话网、引文网及电力网等）来说，幂律衰减指数在3附近，一般为γ∈（2，4），因此BA模型（γ≈

3）不能很好地模型化生物网络；另外，BA模型不能

得到高的群聚系数，而生物网络往往具有高的群聚系数。那么幂律衰减指数γ和群聚系数不同的原因是什么？在生物网络的研究中发现，基因组中信息的复制（这里不仅仅是基因的复制，同时伴随着基因调控相互作用的复制）是产生新基因的主要因素，例如，在大肠杆菌中有52%的基因是通过复制获得的。通过复制使得一些信息会保存在基因组中，因此建立基因调控网络模型的关键在于复制增长，这是生物进化的主要动力。这点不同于大多数非生物网络，其择优增长是这些非生物网络演化的主要动力。由此，提出了一种基于复制增长网络模型：

（1）在t时刻，网络中有t个结点，每个结点i（i=

图4啤酒酵母菌蛋白质相互作用的整个网络图

1，2，…，t）的度为ki（t）；

（2）复制结点，在t+1时刻，以等概率（p=1／t）选择

一个结点i，通过复制结点i，复制增加一个新结点j；

（3）复制连线，与结点i所连接的结点和新结点j连接起来。

若节点的个数n以概率1趋向于无穷大时，那么选择概率为p的部分复制模型的节点度分布服从指数为γ的幂律分布的条件是：p（γ－1）=1－pγ－1，特别当

总结大肠杆菌转录因子之间相互作用网络和以往的这些生物网络的研究，我们发现它们基本上都具有一个相似的、重要的结构特性：

（1）它们具有无标度特性。度相等的节点个数服从幂律分布（N（k）~k-γ），即对于许多节点来说连接度很小，只有少部分节点的连接度很大。

（2）这些网络有小世界特性。一方面，它们有高

1／2

··143

图5复制增长模型的模拟幂率指数γ≈2

模型的不足：网络是无向的，这样会遗漏一些重要的复杂性，例如调控因子对其靶基因是正的还是负的调控；网络是无权值的，那么节点之间的连接强度被忽略了，而在现实网络中，一些节点之间的连接是比其他节点之间的连接来得重要，因此在现实网络中，节点之间连接更倾向于复制这些重要的连接；另外，在增长过程中会出现重新连接，例如基因突变，会导致重新连接和连线断开等等。由此，我们提出了另一种可重复连线的模型（可看作是带权值的增长网络）：

初始网络，即t=1时，网络是由2个结点和m条重复边构成的图。下一个时刻，网络中将增加一个新点，并由新点和原网络中的结点按度择优概率连接

一个缺点：由于生物实验数据的限制，获得的大肠杆菌转录因子之间相互作用的数据并未完善，有些转录因子和被转录因子还仍未被发现，另外不同转录因子之间的相互作用还需要进一步去发现。在网络模型的建立上，有待于进一步的改进及理论的推导。

参考文献

[1]FrenkelKA.TheHumanGenomeProjectandInformatics[J].CommunicationsoftheACM,1991,34(11)：41-51.[2]MinoruKanehisa.Post-genomeInformatics[M].Oxford:TheOxfordUniv.Press,2000：17-21.

[3]BarabásiAL,AlbertR.EmergenceofScalinginRandomNetworks[J].Science,1999,286：509-512.

[4]AlbertR,BarabásiAL.StatisticalMechanicsofComplex[J].ReviewofModernPhysics，2002,74:47-97.

[5]SchwikowskiB,UetzP,FieldsS.AnetworkofProtein-pro-teinInteractionsinYeast[J].NatureBiotechnology,2000,18：1257-1

261.

m条新边。新线连接过程中，老结点允许重复连线，

度择优概率保持不变。

模拟m=6的情况，模拟到t=100000时停止，运行

100次，然后统计度分布，并在双对数坐标上画图，如图6所示。

6结语

需要指出的是，在网络分析中，我们的研究存在

ApplicationofComplexNetworkTheoryinGeneRegulatoryNetworks

ZHOUHui-jie

（NingboUniversity,Ningbo315211）

Abstract：Inthepost-genomicsresearch,oneofgreatchallengeistounderstandhowgene,proteinandRNAmoleculesetc.interactandinterweaveeachotherthroughcomplicateddependenciesandmutualinteractivenet-works.Scale-freenetworktheoryforresearchanddevelopmentofgeneregulatorynetworksprovidesapowerfultool.Ontheonehand,thestudyfoundthatmanybiologicalnetworksandnon-biologicalnetworksarescale-freepropertiesandthesmall-worldstructure.Ontheotherhand,biologicalnetworksandnon-biologicalnetworkshavedifferentpower-lawdecayindex.Sincethecopyisthedrivingforceofbiologicalevolution,thepaperpresentscopymodelandweightmodel,whicharedifferentfromtheBAmodel.Themodelsimulationresultsshowedthatpower-lawdecayindexγ≈2.

Keywords：Escherichiacoli；bioinformatics；generegulatorynetworks；scale-freenetworks

··144

第11卷第5期重庆科技学院学报（自然科学版）2009年10月

复杂网络理论在基因调控网络中的应用

周晖杰

（宁波大学，宁波315212）

摘

要：无标度网络理论的提出与发展为研究基因调控网络提供了有力的理论基础。一方面，研究发现许多生物网

文献标识码：A

文章编号：1673-1980（2009）05-0141-04

网络，在这个复杂的生物过程中，主要调控元件包含了基因调控的顺式作用元件和反式作用因子。

（2）基因表达的组织特异性。在基因组中所含的全部基因也不是以同样的强度同时表达的。大肠杆菌基因组含有约4000个基因，一般情况下只有5%～

10%在高水平转录状态，其他基因有的处于低水平

表达，有的就暂时不表达；不同组织细胞中不仅表达的基因数量不相同，而且基因表达的强度和种类也各不相同。

（3）基因表达的阶段特异性。在细胞分化发育的不同时期，基因表达的情况是各不相同。

1基因调控网络是一个复杂网络

以大肠杆菌这种原核生物的基因调控网络为例，

（1）基因产物之间的相互作用。多个调控元件及靶基因之间相互作用，形成一个复杂的基因调控

收稿日期：2009-02-21

基金项目：宁波大学校科研基金资助项目（xy0700066）

2从复杂网络系统角度来研究的意义

基因调控网络研究的方法主要是利用基因表达

和调控所产生的数据，运用数据挖掘技术和智能算法等方法，反向分析和挖掘基因、蛋白质和大分子等各种

作者简介：周晖杰（1979-），男，浙江奉化人，硕士，宁波大学科技学院讲师,研究方向为生物信系与复杂网络。

··141

周晖杰：复杂网络理论在基因调控网络中的应用

图1

别为1和5，在每一时间步长内，都增加一个新的节点，其与网络中老的节点分别择优连接1条边和5条边（不能重复连接），其结果如图1和图2所示。

m0=1，m=1，时间步长t=120000

3无标度网络理论

现实世界中许多系统都可以用复杂网络来描

近些年来发现大量的真实网络既不是规则网络，也不是随机网络[3]，而是具有增长和择优机制的无标度网络[4]。由此提出了BA模型，其演化规则为：

（1）增长：开始给定m0个孤立或全连通的点，在每一个时间步长，增加一个新节点；

（2）择优：新节点与网络中旧节点择优连接m（m≤

图2

m0=5，m=5，时间步长t=120000

4基因调控网络的构建

转录因子是基因转录调控中的一种基本元件，

利用Pajek软件来做大肠杆菌基因调控网络分析，这是一种用于大尺度网络分析的软件，经过分析得大肠杆菌转录因子之间相互作用网络如图3所示。

大肠杆菌转录因子之间相互作用网络图3与随机网络图相比，可以看出，在图3中crp、hns等几个少

m0）条边，这里不能重复连接，连接节点i的概率为Π

（ki）=ki

Σk，这里k为节点i的度。

其度相等的节点个数服从幂律分布N（k）~k-γ，这里k表示节点的度，N（k）表示网络中度为k的节点个数，γ表示衰减指数，γ≈3。

表1

名称

基因调控网络相关数据库

功能

转录调控子与操纵元组织基因调控转录因子预测基因调控序列分析

京都基因与基因组百科全书基因组的编码

啤酒酵母转录调控网络

网址

RegulonDBBIOBASETESSGRESAKEGGGTLTRN

http://www.cifn.unam.mx/http://www.gene-regulation.de/http://www.cbil.upenn.edu/tess/

http://compel.bionet.nsc.ru/new/index.htmlhttp://www.genome.jp/kegg/

http://doegenomestolife.org/index.shtmlhttp://web.wi.mit.edu/young/regulator_network

的集群系数C，即一个节点连接到其他两个节点时，那么其他两个节点往往彼此间也直接连接了；另一方面，在这些生物网络中，平均最短路径L是小的。

显然，无标度、小世界结构在细胞内网络是很典型的。

5复制增长模型和带权值增长模型

分析以往人们对大量实际网络的实证研究结果

3）不能很好地模型化生物网络；另外，BA模型不能

（1）在t时刻，网络中有t个结点，每个结点i（i=

图4啤酒酵母菌蛋白质相互作用的整个网络图

1，2，…，t）的度为ki（t）；

（2）复制结点，在t+1时刻，以等概率（p=1／t）选择

一个结点i，通过复制结点i，复制增加一个新结点j；

（3）复制连线，与结点i所连接的结点和新结点j连接起来。

若节点的个数n以概率1趋向于无穷大时，那么选择概率为p的部分复制模型的节点度分布服从指数为γ的幂律分布的条件是：p（γ－1）=1－pγ－1，特别当

总结大肠杆菌转录因子之间相互作用网络和以往的这些生物网络的研究，我们发现它们基本上都具有一个相似的、重要的结构特性：

（1）它们具有无标度特性。度相等的节点个数服从幂律分布（N（k）~k-γ），即对于许多节点来说连接度很小，只有少部分节点的连接度很大。

（2）这些网络有小世界特性。一方面，它们有高

1／2

··143

图5复制增长模型的模拟幂率指数γ≈2

初始网络，即t=1时，网络是由2个结点和m条重复边构成的图。下一个时刻，网络中将增加一个新点，并由新点和原网络中的结点按度择优概率连接

参考文献

[1]FrenkelKA.TheHumanGenomeProjectandInformatics[J].CommunicationsoftheACM,1991,34(11)：41-51.[2]MinoruKanehisa.Post-genomeInformatics[M].Oxford:TheOxfordUniv.Press,2000：17-21.

[3]BarabásiAL,AlbertR.EmergenceofScalinginRandomNetworks[J].Science,1999,286：509-512.

[4]AlbertR,BarabásiAL.StatisticalMechanicsofComplex[J].ReviewofModernPhysics，2002,74:47-97.

[5]SchwikowskiB,UetzP,FieldsS.AnetworkofProtein-pro-teinInteractionsinYeast[J].NatureBiotechnology,2000,18：1257-1

261.

m条新边。新线连接过程中，老结点允许重复连线，

度择优概率保持不变。

模拟m=6的情况，模拟到t=100000时停止，运行

100次，然后统计度分布，并在双对数坐标上画图，如图6所示。

6结语

需要指出的是，在网络分析中，我们的研究存在

ApplicationofComplexNetworkTheoryinGeneRegulatoryNetworks

ZHOUHui-jie

（NingboUniversity,Ningbo315211）

Keywords：Escherichiacoli；bioinformatics；generegulatorynetworks；scale-freenetworks

··144

复杂网络理论在基因调控网络中的应用

相关内容

热门内容

标签