共有的以及私有的人体遗传变异

对基因组中常见或少见的遗传变异进行分析可以发现新的、更高层面上(人群中或者不同人群间)的人类遗传变异现象。

一万多年以前,也就是从旧石器时代(Paleolithic)向新石器时代(Neolithic)过渡的那个年代,由于农业和畜牧业的发展,人类经历了历史上的第一次人口大爆炸,而且这种人口扩张的趋势一直延续到今天。可颇具讽刺意味的是,因为生活条件的改善才导致的这种人口的快速扩张却给人类的基因组带来了过多的损伤性突变(damaging variant)。近期Tennessen等人和Nelson等人分别在《科学》(Science)杂志撰写文章。其中第一篇文章介绍的是对人体外显子组进行深度测序,并对测序结果进行分析的工作;第二篇文章则主要讲述对数千人基因组中极有可能成为药物靶点的202个基因进行深度测序,并对测序结果进行分析。这两项研究都发现,绝大多数遗传突变在整个人群中出现的比例都非常低,而人类的基因组中已经积累了太多有可能对人体造成伤害的遗传突变。

直到不久前,科学家们人类遗传突变的研究还都主要集中在发生率为1~5%之间的那些突变,这主要还是因为技术的限制和科研成本的考虑。从这个角度来说,医学遗传学研究和人口遗传学研究还都是以常见的、所谓的多态性突变(polymorphism)为基础的科学研究,这也是为什么SNP研究如此火爆的原因之一。可是随着新一代测序技术的日益成熟,科学家们已经可以对比较罕见的遗传突变进行研究了,这是因为新一代测序技术的测序速度更快、测序成本更低,所以可以对大量的样品进行测序,找到这些罕见的遗传突变。这些突变在出现时间上要比我们以往研究的那些突变更晚(即它们更为“年轻”),所以会携带更多更新的人口统计学信息(demographic)。由于近一个世纪以来的人口大爆炸,所以罕见突变(即出现频率不到0.5%的突变)的实际数量要比根据现有的模型推算出的数量更多。

这些罕见突变对编码蛋白序列及其功能的改变能力更大,所以更容易导致疾病发生。这类突变对少数几个与编码蛋白功能密切相关位点的影响作用要远远大过根据经典的人口遗传学分析模型得出的预测结果。这可能是因为在近几千年的时间里,人类的数量一下子增加了很多,所以自然选择过程还不足以去除掉这些有害突变,可这些突变会不利于我们人类适应未来的社会。

人群中存在的这种突变负担在我们每一个人体内同样存在。平均每一个人都会携带35个无义突变(nonsense),这些突变就会影响有功能蛋白质的形成。如果算上其它突变,那么我们每一个人体内平均会有100个让蛋白质失去功能的突变,其中有20个突变属于纯合突变(homozygous),还有10~15%的人体内至少有一个基因会发生杂合型(heterozygotes)的无义突变。这就让我们不可不考虑DNA序列变异除了能够改变编码蛋白质的结构和功能之外,是不是还会在更高的物种层面施加影响。不过并非所有的功能缺失突变(loss-of-function variant)都可以对表型造成同等的影响,其中有一些突变的影响作用就比较小,让我们人体还可以耐受,这是因为存在遗传和功能冗余(redundancy)的现象。由于遗传突变与突变对表型造成的影响之间并不是直接对应的关系,比如因为基因网络的作用,很多有害的(deleterious),甚至是可以致死的(lethal)突变都有可能会被其它替代通路的作用补偿掉,所以我们还需要更加精确的预测工具来判断遗传突变最终会对人体造成什么样的影响。而且这种预测工具不仅要能够预测突变对蛋白结构的影响作用,同时还必须预测出突变对整个物种的影响作用。

Tennessen和Nelson等人开展的这些研究给我们在罕见突变相关分析的实验设计方面提出了两个非常重要的警示,第一点是开展这类研究一定要选取规模较大的样本量(可有些时候这种样本规模根本就不可能达到);第二点是人群样本尽可能不重复,因为这些罕见突变一般都只会在某一个人群中出现。全基因组关联研究(Genome-wide association studies)可以对全基因组内数百万个多态性位点(polymorphic position)进行研究,这种技术可以帮助我们更好地了解比较复杂的疾病,比如可以对有10~20%遗传突变参与致病作用的疾病进行分析。另外还有遗传力(heritability)的问题也需要研究,而罕见突变可能就是决定遗传力的因素之一。将患者人群和对照人群的等位基因突变频率进行列联表比对(Contingency tables comparing)这种研究方式的统计意义还不足以得出准确的结论,这是因为针对这类罕见突变,这种研究的样本量很难达到要求。所以科学家们也正在努力构建新的统计工具,研究这种复杂疾病背后的罕见突变,他们现在通常都会考虑多个罕见突变造成的叠加作用,这种叠加作用有非常明显的统计学意义,可是目前看来生物医学方面的意义还不太大。而且即便是研究作用比较明显的突变,数千人的样本规模也是不够的,所以我们在今后的研究工作中还需要更大规模的样本量。

人类遗传突变。图中展示的是欧洲裔美国人和非洲裔美国人共有的,以及他们各自独有的遗传突变占比情况。

在遗传学研究中,突变率在不同人群中要能够重复,这一点非常重要。通常来说,常见突变的出现频率还比较稳定,在各个人群中都差不多,尤其在同一个大陆(洲)上的人群中更是如此。可是罕见突变的情况就不太一样了,罕见突变有非常明显的人群特异性。如上图所示,罕见突变出现的频率在不同大陆人群间的重复率只有10~30%,而在同一大陆人群间的重复率却高达70~80%。所以这类突变更具地理区分(geographic stratifi cation)意义,即罕见突变更适于对人群进行地理区分,而不太适合用于疾病研究,可是在进行地理划分时比较容易出现假阳性,而且这种分析在不同的人群之间也缺乏重复性。不过罕见突变的人群特异性特征也提示我们需要对这类突变进行分类,同时还应该尽可能详细地收集不同人群各自祖先的资料,并且对地理区分进行校正。而我们长期以来一直广泛使用的、通过对患病人群和对照人群进行比对的复杂疾病遗传学研究模式也正面临着发展的瓶颈,因为这种研究模式遭遇的问题不是单单通过增大样本量,进行更加详细的分析或者突变序列比对这些方法就可以得到解决的。

在未来这几年里,以成千上万的人的全基因组序列为对象的科学研究可能会有助于我们认清罕见突变的作用,还可以帮助我们确定这些罕见突变在人体基因组中的位置,以及在不同人群中的分布情况。可是这类工作对科学家们的分析能力,乃至对计算机的运算能力都会是一个不小的挑战。但是无论如何,对包括调控序列在内的各种非编码序列突变功能的认识都是我们必须掌握的知识,同时我们也需要开发更多、更好的基因组突变功能注释工具。因为这些信息和工具可以帮助我们对基因组中数量繁多的突变和基因按照重要性进行排序,这样既可以方便科学家们发现罕见的遗传疾病致病基因,也可以在研究常见遗传疾病或者评估个人遗传风险时对各种突变按照危险程度进行区分。当然最后我们还是得回到最基本的生物学问题,即这些遗传突变都会带来哪些表型上的改变。

原文检索:

Ferran Casals and Jaume Bertranpetit. (2012) Human Genetic Variation, Shared and Private. Science, 337: 39-40.

YORK/编译

对基因组中常见或少见的遗传变异进行分析可以发现新的、更高层面上(人群中或者不同人群间)的人类遗传变异现象。

一万多年以前,也就是从旧石器时代(Paleolithic)向新石器时代(Neolithic)过渡的那个年代,由于农业和畜牧业的发展,人类经历了历史上的第一次人口大爆炸,而且这种人口扩张的趋势一直延续到今天。可颇具讽刺意味的是,因为生活条件的改善才导致的这种人口的快速扩张却给人类的基因组带来了过多的损伤性突变(damaging variant)。近期Tennessen等人和Nelson等人分别在《科学》(Science)杂志撰写文章。其中第一篇文章介绍的是对人体外显子组进行深度测序,并对测序结果进行分析的工作;第二篇文章则主要讲述对数千人基因组中极有可能成为药物靶点的202个基因进行深度测序,并对测序结果进行分析。这两项研究都发现,绝大多数遗传突变在整个人群中出现的比例都非常低,而人类的基因组中已经积累了太多有可能对人体造成伤害的遗传突变。

直到不久前,科学家们人类遗传突变的研究还都主要集中在发生率为1~5%之间的那些突变,这主要还是因为技术的限制和科研成本的考虑。从这个角度来说,医学遗传学研究和人口遗传学研究还都是以常见的、所谓的多态性突变(polymorphism)为基础的科学研究,这也是为什么SNP研究如此火爆的原因之一。可是随着新一代测序技术的日益成熟,科学家们已经可以对比较罕见的遗传突变进行研究了,这是因为新一代测序技术的测序速度更快、测序成本更低,所以可以对大量的样品进行测序,找到这些罕见的遗传突变。这些突变在出现时间上要比我们以往研究的那些突变更晚(即它们更为“年轻”),所以会携带更多更新的人口统计学信息(demographic)。由于近一个世纪以来的人口大爆炸,所以罕见突变(即出现频率不到0.5%的突变)的实际数量要比根据现有的模型推算出的数量更多。

这些罕见突变对编码蛋白序列及其功能的改变能力更大,所以更容易导致疾病发生。这类突变对少数几个与编码蛋白功能密切相关位点的影响作用要远远大过根据经典的人口遗传学分析模型得出的预测结果。这可能是因为在近几千年的时间里,人类的数量一下子增加了很多,所以自然选择过程还不足以去除掉这些有害突变,可这些突变会不利于我们人类适应未来的社会。

人群中存在的这种突变负担在我们每一个人体内同样存在。平均每一个人都会携带35个无义突变(nonsense),这些突变就会影响有功能蛋白质的形成。如果算上其它突变,那么我们每一个人体内平均会有100个让蛋白质失去功能的突变,其中有20个突变属于纯合突变(homozygous),还有10~15%的人体内至少有一个基因会发生杂合型(heterozygotes)的无义突变。这就让我们不可不考虑DNA序列变异除了能够改变编码蛋白质的结构和功能之外,是不是还会在更高的物种层面施加影响。不过并非所有的功能缺失突变(loss-of-function variant)都可以对表型造成同等的影响,其中有一些突变的影响作用就比较小,让我们人体还可以耐受,这是因为存在遗传和功能冗余(redundancy)的现象。由于遗传突变与突变对表型造成的影响之间并不是直接对应的关系,比如因为基因网络的作用,很多有害的(deleterious),甚至是可以致死的(lethal)突变都有可能会被其它替代通路的作用补偿掉,所以我们还需要更加精确的预测工具来判断遗传突变最终会对人体造成什么样的影响。而且这种预测工具不仅要能够预测突变对蛋白结构的影响作用,同时还必须预测出突变对整个物种的影响作用。

Tennessen和Nelson等人开展的这些研究给我们在罕见突变相关分析的实验设计方面提出了两个非常重要的警示,第一点是开展这类研究一定要选取规模较大的样本量(可有些时候这种样本规模根本就不可能达到);第二点是人群样本尽可能不重复,因为这些罕见突变一般都只会在某一个人群中出现。全基因组关联研究(Genome-wide association studies)可以对全基因组内数百万个多态性位点(polymorphic position)进行研究,这种技术可以帮助我们更好地了解比较复杂的疾病,比如可以对有10~20%遗传突变参与致病作用的疾病进行分析。另外还有遗传力(heritability)的问题也需要研究,而罕见突变可能就是决定遗传力的因素之一。将患者人群和对照人群的等位基因突变频率进行列联表比对(Contingency tables comparing)这种研究方式的统计意义还不足以得出准确的结论,这是因为针对这类罕见突变,这种研究的样本量很难达到要求。所以科学家们也正在努力构建新的统计工具,研究这种复杂疾病背后的罕见突变,他们现在通常都会考虑多个罕见突变造成的叠加作用,这种叠加作用有非常明显的统计学意义,可是目前看来生物医学方面的意义还不太大。而且即便是研究作用比较明显的突变,数千人的样本规模也是不够的,所以我们在今后的研究工作中还需要更大规模的样本量。

人类遗传突变。图中展示的是欧洲裔美国人和非洲裔美国人共有的,以及他们各自独有的遗传突变占比情况。

在遗传学研究中,突变率在不同人群中要能够重复,这一点非常重要。通常来说,常见突变的出现频率还比较稳定,在各个人群中都差不多,尤其在同一个大陆(洲)上的人群中更是如此。可是罕见突变的情况就不太一样了,罕见突变有非常明显的人群特异性。如上图所示,罕见突变出现的频率在不同大陆人群间的重复率只有10~30%,而在同一大陆人群间的重复率却高达70~80%。所以这类突变更具地理区分(geographic stratifi cation)意义,即罕见突变更适于对人群进行地理区分,而不太适合用于疾病研究,可是在进行地理划分时比较容易出现假阳性,而且这种分析在不同的人群之间也缺乏重复性。不过罕见突变的人群特异性特征也提示我们需要对这类突变进行分类,同时还应该尽可能详细地收集不同人群各自祖先的资料,并且对地理区分进行校正。而我们长期以来一直广泛使用的、通过对患病人群和对照人群进行比对的复杂疾病遗传学研究模式也正面临着发展的瓶颈,因为这种研究模式遭遇的问题不是单单通过增大样本量,进行更加详细的分析或者突变序列比对这些方法就可以得到解决的。

在未来这几年里,以成千上万的人的全基因组序列为对象的科学研究可能会有助于我们认清罕见突变的作用,还可以帮助我们确定这些罕见突变在人体基因组中的位置,以及在不同人群中的分布情况。可是这类工作对科学家们的分析能力,乃至对计算机的运算能力都会是一个不小的挑战。但是无论如何,对包括调控序列在内的各种非编码序列突变功能的认识都是我们必须掌握的知识,同时我们也需要开发更多、更好的基因组突变功能注释工具。因为这些信息和工具可以帮助我们对基因组中数量繁多的突变和基因按照重要性进行排序,这样既可以方便科学家们发现罕见的遗传疾病致病基因,也可以在研究常见遗传疾病或者评估个人遗传风险时对各种突变按照危险程度进行区分。当然最后我们还是得回到最基本的生物学问题,即这些遗传突变都会带来哪些表型上的改变。

原文检索:

Ferran Casals and Jaume Bertranpetit. (2012) Human Genetic Variation, Shared and Private. Science, 337: 39-40.

YORK/编译


相关内容

  • 八年级下生物提纲8
  • 八年级(下)生物复习资料 第七单元 第一章 生物的生殖和发育 §7.1.1 植物的生殖 1.生命在生物圈中的延续和发展,最基本的环节是生物通过生殖和发育,世代相续,生生不息. 柱头 成熟植 株 花柱 子房 胚珠 花药 子 花丝 2.有性生殖:方式.例如:种子繁殖(通过开花.传粉并结出果实,由果实中的 ...

  • 人教版八年级生物下册复习提纲
  • 人教版八年级生物下册复习提纲 第七单元 生物圈中生命的延续和发展 第一章 生物的生殖和发育 第一节 植物的生殖 1.有性生殖由两性生殖细胞结合成受精卵发育成新个体的生殖方式. 例如种子繁殖通过开花.传粉并结出果实由果实中的种子来繁殖后代.胚珠中的卵细胞与花粉中的精子结合成受精卵受精卵→胚→ ...

  • 大学体育理论考试题库
  • 22心血管系统组成人体的心血管系统的组成为 A.心脏和血液B.心脏和血管C.内脏和肌肉D.心肌和血液A 32心血管系统的影响心脏工作的"节省化"定义为 A.经常锻炼的强有力的心脏,进行重要工作时心脏和血压的变化都小于一般人B.经常锻炼的强有力的心脏,进行轻度运动和工作时,在负荷相 ...

  • 初中生物知识点汇总
  • 第一单元:生物和生物圈 1.生物具有的共同特征: 1)生物的生活需要营养 植物的营养:绝大多数通过光合作用制造有机物: 动物的营养:从外界获取现成的营养. 2)生物能进行呼吸. 3)生物能排出身体内的废物. 动物排出废物的方式:出汗.呼出气体.排尿. 植物排出废物的方式:落叶. 4)生物能对外界刺激 ...

  • 专题一生物和生物圈
  • 专题一 生物和生物圈 1.生物具有的共同特征: ①生物的生活需要营养.②生物能进行呼吸. ③生物能排出身体内的废物. ④生物能对外界刺激做出反应.例:含羞草对刺激的反应. ⑤生物能生长和繁殖. ⑥除病毒以外,生物都是由细胞构成的. 2.生物圈的范围:大气圈的底部.水圈的大部和岩石圈的表面.厚度大约2 ...

  • 人教版初中生物会考复习资料----好用
  • 人教版初中生物会考复习资料 第一单元:生物和生物圈 1. 生物具有的共同特征 1)生物的生活需要营养 植物的营养:绝大多数通过光合作用制造有机物: 动物的营养:从外界获取现成的营养. 2)生物能进行呼吸. 3)生物能排出身体内的废物. 动物排出废物的方式:出汗.呼出气体.排尿. 植物排出废物的方式: ...

  • 初中生物知识点
  • 初中生物知识点总结 第一单元:生物和生物圈 1.科学探究一般环节:提出问题.作出假设.制定计划.实施计划.得出结论.表达交流 2.生物的特征 1)生物的生活需要营养:[绝大多数植物通过光合作用制造有机物(自养):动物则从外界获取现成的 营养(异养).] 2)生物能进行呼吸. 3)生物能排出身体内的废 ...

  • 八下生物复习提纲
  • 八年级下册生物复习提纲 第七单元 第一章 生物的生殖和发育 第一节 植物的生殖 1.有性生殖:由结合成例如:种子繁殖(通过开花.传粉并结出果实,由果实中的种子来繁殖后代.)(胚珠中的卵细胞与花粉中的精子结合成受精卵→胚→种子) 有性生殖的过程:开花→传粉→受精→结实→新一代植株. 2.无性生殖:不经 ...

  • 八(下)生物期末复习资料
  • 第七单元 生物圈中生命的延续和发展 第一章生物的生殖和发育 一.植物的生殖 1.有性生殖:由两性生殖细胞结合形成受精卵,再由受精卵发育成新 个体的生殖方式.例如:种子繁殖(通过开花.传粉并结出果实,由 果实中的种子来繁殖后代.)(胚珠中的卵细胞与花粉中的精子结合成 受精卵→胚→种子) 2.无性生殖: ...