临床遗传咨询
上QQ阅读APP看书,第一时间看更新

第三节 遗传的分子基础

核酸是一种生物体内高分子化合物,包括脱氧核糖核酸(deoxyribonucleic acid,DNA)和核糖核酸(ribonucleic acid,RNA)两大类。自然界中所有的真核细胞、原核细胞以及DNA病毒都是以DNA作为遗传信息的载体。真核细胞的DNA主要存在于细胞核内,与蛋白质结合形成复合体。
一、DNA的化学组成与分子结构
(一)DNA的化学组成
DNA由许许多多个脱氧核苷酸(deoxynucleotide)聚合而成。每个脱氧核苷酸分子由一分子脱氧核糖、一分子磷酸和一分子含氮碱基组成。DNA的构成碱基包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种类型。这四种碱基分别与脱氧核糖分子一号碳原子相连,形成四种脱氧核苷,进而与磷酸相连,形成四种脱氧核苷酸——腺嘌呤脱氧核苷酸、鸟嘌呤脱氧核苷酸、胞嘧啶脱氧核苷酸和胸腺嘧啶脱氧核苷酸。这四种脱氧核苷酸按照不同的数目和排列顺序形成的复杂的DNA大分子,生物遗传信息就储藏在碱基排列顺序之中。
(二)DNA的分子结构
1953年,美国生物学家J.D.Watson和英国物理学家F.Crick提出了DNA分子的双螺旋结构模型,对DNA分子的结构做出描述:①DNA分子由两条反向平行的多聚脱氧核苷酸链组成,围绕同一轴形成双螺旋结构;②每一条链上的脱氧核糖和磷酸以磷酸二酯键交替连接排列,位于多核苷酸链的外侧,构成DNA分子的基本骨架;③碱基在长链的内侧,通过氢键形成互补碱基对:A-T,G-C(图1-16)。
图1-16 DNA分子的双螺旋结构
不同的DNA分子两条长链上的脱氧核糖与磷酸分子构成相同,差异主要表现在碱基对的构成上。DNA分子上碱基对可以有各种不同的数量和排列顺序,就构成了DNA分子的多样性。特定DNA分子具有其特定的碱基排列顺序,这是生物性状特异性和稳定性的遗传基础。
DNA双螺旋结构的生物学意义主要表现在:①以三联密码子的方式储存大量遗传信息;②是DNA复制和修复的基础;③是分子杂交/PCR等实验技术的基础;④DNA双螺旋中的大沟是DNA与蛋白质相互作用的结构基础。
二、基因的概念与基本结构
(一)什么是基因
基因(gene)是具有特定遗传效应的DNA片段。最早由丹麦生物学家Johannsen提出这一名词以替代孟德尔所说的遗传因子。基因是遗传物质结构和功能的基本单位,由特定核苷酸按特定顺序排列而成。可以自我复制,保持连续性;通过表达决定生物性状;并有一定的突变率。
根据各种基因的功能不同,可将其分为结构基因和调控基因两大类:①结构基因:指能够转录和翻译出各种功能分子的基因,如各种蛋白质的编码基因以及 RNA基因等;②调控基因:指对其他基因的表达起着调节和控制作用的基因。
(二)真核基因结构特点
真核基因通常由编码区和侧翼序列(flanking sequence)两部分构成。
编码区一般是不连续的,由编码序列和非编码序列两部分组成。编码序列称作外显子(exon),非编码序列称作内含子(intron)(图1-17)。真核基因的编码序列并非连续排列,而是被非编码序列间隔开,外显子与内含子交替排列,称为断裂基因(split gene)。在每个外显子与内含子的交界处,都有一段高度保守的特异性碱基序列,每个内含子的5′端两个碱基都是GT,3′端两个碱基都是AG,这一特异的碱基序列被看做是外显子与内含子的接头,这种连接方式称为GT-AG法则,是基因表达时RNA剪切的识别机制。
图1-17 真核基因结构
侧翼序列位于编码区两端,即第一个外显子之前和最后一个外显子之后的两段非编码序列,其上含有一些调控序列。在5′端侧翼序列的基因转录起始点上游有一段序列,是RNA聚合酶的结合位点,能够开启操纵基因,使结构基因开始被转录,该序列被称作启动子(promoter);DNA分子上还存在有能够使启动基因指导转录的功能增强的一段序列,称为增强子(enhancer),增强子可以位于转录起始点的上游或下游,可以提高转录效率;在3′端侧翼序列有一段特定能够使转录终止的DNA序列称为终止子(terminator),包括一个mRNA裂解信号(AATAAA)和一个回文序列,回文序列导致DNA双链上形成一个发卡结构,当RNA聚合酶处于该位置上时,RNA就会从DNA模板上脱落下来,转录终止。这些侧翼调控序列在转录时相互配合,密切合作,共同调控着细胞内基因的有序表达。
三、基因的功能
基因的功能主要表现为:①通过自我复制,保持遗传性状的稳定性和连续性;②通过表达决定生物性状;③通过基因突变保持生物性状可变异性从而适应不断变化的环境。
(一)基因复制
基因的化学本质是DNA分子,因此基因复制(replication)其实就是DNA复制,是指以亲代DNA分子为模板,在DNA聚合酶的作用下,合成子代DNA分子的过程。
DNA分子的复制过程是在细胞间期完成的。在解旋酶的作用下,DNA分子打开螺旋双链,两条链之间的氢键断裂,形成两条平行的单链;然后,在DNA聚合酶的作用下,分别以解开的每一条单链DNA为模板,利用核基质中游离的脱氧核苷酸,根据碱基互补配对原则,与模板链上的碱基互补配对,配对的这些脱氧核苷酸被DNA聚合酶连接成一条单链,两个相邻的脱氧核苷酸之间以磷酸二酯键相连,形成一条子链。这样,分别以亲代DNA分子的两条模板链为模板,各自合成一条子链,形成了两条子代DNA分子。在每一个子代DNA分子中,各包含了一条亲链和一条子链。因此,DNA的这种复制方式被称为半保留式复制(图1-18)。新合成的两个子代DNA分子彼此碱基顺序完全相同,且与亲代DNA分子保持一致,亲代细胞的遗传信息就可以准确、均等地传递给子代细胞,生物性状得以稳定遗传。
图1-18 DNA分子的复制
(二)基因表达
基因所携带的遗传信息转化为生物性状的过程称为基因表达(gene expression),主要包括转录和翻译两个步骤。
1.转录(transcription)
是指将基因分子上的遗传信息转移到mRNA分子上的过程。基因的两条DNA链中有一条链携带遗传信息,称为有义链或者正义链,另一条链则被称为互补链或者反义链。转录时游离在核基质中的核糖核苷酸的碱基与反义链上的碱基可以互补结合,两者之间以氢键相连,在RNA聚合酶的作用下,已经互补配对成功的相邻的核糖核苷酸之间以磷酸二酯键相连,并逐步延伸,形成一条多核糖核苷酸链,即mRNA分子(图1-19)。需要注意的是,组成RNA的碱基不含胸腺嘧啶(T),以尿嘧啶(U)来替代,故转录时的碱基互补配对原则是A-U,T-A,G-C,C-G。真核基因转录是在细胞核内完成的,转录后的mRNA穿过核孔,进入细胞质指导蛋白质的合成。
图1-19 mRNA的转录过程
2.翻译(translation)
是指mRNA指导蛋白质合成的过程,即将mRNA上的碱基序列转化成蛋白质上的氨基酸序列的过程。真核基因翻译过程是在细胞质中的核糖体上完成的,需要mRNA与tRNA和核糖体合作才能实现。
mRNA编码序列上的每三个相邻碱基构成一个遗传密码子(codon),决定了这三个碱基所处位置的氨基酸类型。由于mRNA分子上有A、U、G、C四种碱基,三个碱基构成一个密码子,随机组成一共有64种遗传密码(表1-2)。
表1-2 遗传密码表
注:*AUG为起始密码
64种密码子中含有3种终止密码子和61种编码氨基酸密码子。终止密码子AUU、AUG、AGU不能编码任何氨基酸,意味着肽链合成终止;其余61种编码氨基酸密码子分别代表20种氨基酸,也就是说,某些氨基酸会同时由几种不同的密码子来编码,此现象称为密码的简并。
游离在细胞质中的氨基酸经活化后与转运RNA(tRNA)结合,tRNA分子的一端具有可以与mRNA上的密码子相互配对的碱基序列,称为反密码子,另一端是携带相应氨基酸的部位(图1-20)。tRNA携带氨基酸的种类由与它相对应的密码子所决定,不同的tRNA反密码子不同,与之相对应的密码子则不同,携带的氨基酸也就可能不同。
图1-20 tRNA结构模式图
翻译时核糖体与mRNA的5′端起始位点结合。与起始密码子相对应的tRNA携带甲硫氨酸进入核糖体的相应部位,第二个tRNA携带着与之相应的密码子所代表的氨基酸以相同方式进入核糖体第二位点,在转肽酶的作用下,两个氨基酸脱去一分子水,形成二肽;然后核糖体沿着mRNA分子由5′端向3′端移动,读取下一个密码子,新的tRNA携带着第三个氨基酸进入相应位点,肽链继续合成,直至遇到终止密码子,肽链合成结束(图1-21)。此时,mRNA与核糖体分离,多肽链从核糖体上脱落下来,进行下一步的修饰加工。
图1-21 多肽链的翻译过程
3.基因对性状的控制
遗传信息的传递方向符合中心法则——DNA上的遗传信息可以流向子代DNA,实现DNA复制,也可以通过转录流向RNA,再经翻译过程流向蛋白质,通过蛋白质的功能进一步调控生物性状。
根据基因合成蛋白质的种类不同,基因对生物性状的控制可以概括为如下两大途径:①通过控制酶的合成来控制代谢过程,进而实现对生物性状的控制。如人类的白化病、苯丙酮尿症等都是因为合成某种酶的基因缺陷造成相应的酶不能有效合成所致的遗传病。②通过控制功能蛋白质的合成直接控制生物性状。如镰形细胞贫血、囊性纤维病等,是由于编码某种蛋白质的基因突变导致相应的功能蛋白质缺乏所造成。
4.真核基因表达调控
基因的表达是在遗传因素和环境因素的协同控制下有序进行的。在生物体内,存在着一整套复杂的基因表达调控系统。各种生命现象的依次有序呈现不仅依赖于基因的程序性表达,更依赖于基因表达调控系统精确的调节控制。基因表达调控系统主要包括:①转录水平的三级调控:转录前调控、转录过程调控和转录后调控。②翻译水平的调控:在真核细胞内,核糖体的数量、mRNA的成熟度、蛋白质合成因子以及与蛋白合成相关的各种酶都可能影响到翻译过程的速度和翻译蛋白的质量及其生物活性等,因此这些因素就构成了在翻译水平上的调控。而翻译出的多肽链有时需要进行进一步的修饰、加工才能使其具有生物活性,如胰岛素在合成前体后需要经过切割方可行使其生物学功能,这些加工、修饰过程以及某些蛋白酶的激活过程被称为翻译后的调控。③表观遗传学调控:包括DNA甲基化、组蛋白修饰与染色质重塑、遗传印记以及非编码RNA调控等。
(三)基因突变
基因突变(gene mutation)是导致临床遗传病的主要原因,也是目前临床基因诊断的主要内容。生物体内的遗传物质是相对稳定的,但在某些内外因素的影响下也可能发生改变。广义上讲,遗传物质的改变包括基因突变和染色体畸变。
基因突变是指基因在结构上发生碱基对组成或排列顺序的改变,这一改变有可能导致某一特定的生化功能发生改变,从而给生物性状的表达与传递造成影响。基因突变可以发生在个体发育的任何时期,以及构成生物体的任何细胞内,包括各种体细胞和生殖细胞。如果发生在体细胞内,有可能诱发细胞突变导致体细胞遗传病如肿瘤;如果发生在生殖细胞(包括受精卵细胞),突变基因将可能存在于子代个体的每个体细胞中,使后代出现遗传性状的改变。
1.基因突变发生原因
在自然状态下生物体内发生的基因突变称为自发突变。环境中的物理、化学、生物因素都可以诱导基因突变的发生,称为诱发突变。环境诱变剂主要包括:①物理诱变剂:如α射线、β射线、γ射线和X射线等电离辐射引起DNA上碱基、脱氧核糖以及磷酸基改变;紫外线等非电离辐射引起DNA分子单链或两条链上的2个胸腺嘧啶碱基形成T-T二聚体,而改变了DNA分子中的碱基顺序;机械磨损、高温刺激以及过硬饮食等都属于物理诱变因素。②化学诱变剂:工业污染中的煤烟以及汽车尾气中排放的苯并芘;工业原料中的甲醛、乙醛;食品工业中的亚硝酸盐;食品污染里的黄曲霉素;药物中的氮芥、环磷酰胺;农药中的敌百虫,甚至吖啶类染料等都可以诱发基因突变。③病毒诱变剂:如麻疹病毒、疱疹病毒、风疹病毒、流感病毒、腺病毒等感染细胞后,均可引起染色体断裂或基因突变。尤其是早期胚胎,对这些病毒更为敏感,故发生在妊娠早期的病毒感染可能会引起胎儿畸形。有些病毒将其基因组全部或部分整合到宿主染色体上,从而在结构上引起基因突变;还有些病毒可通过自身遗传信息的表达引起突变;部分反转录病毒可带有病毒癌基因,可能诱发细胞癌变。
2.基因突变类型
基因突变本质上是DNA分子中碱基数目和顺序发生了改变,从而导致组成蛋白质的氨基酸的数目和排列顺序发生改变,而引起生物性状的改变。基因突变主要有三种方式:碱基替换(substitution)、移码突变(frame-shift mutation)和动态突变(dynamic mutation)。
(1)碱基替换:
也称为点突变(point mutation)是指一个碱基对被另一个不同的碱基对所替换。根据替换的碱基不同,碱基替换又可分为转换(transition)和颠换(transversion)两种形式。转换是指一种嘌呤被另一种嘌呤所替换,或一种嘧啶被另一种嘧啶所替换,如A-T对换成G-C对,或C-G对换成T-A对。颠换是指嘌呤与嘧啶之间的互换,如A-T对换成了T-A对或C-G对,G-C对换成了C-G对或T-A对。
碱基替换可发生在DNA分子序列中的任何部位,如果发生在两个基因之间的间隔序列或基因内部的内含子序列上,则通常不会产生遗传效应;如果替换发生在基因的外显子编码序列上,可以根据遗传信息改变方式,或者根据突变所造成的生物学后果,分为:①同义突变(same-sense mutation):碱基的改变并未引起编码的氨基酸改变。例如CCA编码脯氨酸,当第三位A突变为G后,CCG仍然编码脯氨酸。②错义突变(missense mutation):碱基的改变引起编码的氨基酸改变。例如镰状红细胞贫血的分子机制就是β珠蛋白编码基因第六位密码子由GAG突变为GUG,使原来编码的谷氨酸变为缬氨酸。③无义突变(non-sense mutation):碱基的改变使原来编码氨基酸的密码子变为UAA/UGA/UAG三个终止密码子之一。④终止密码子突变(terminator codon mutation):当DNA分子中一个终止密码发生突变,成为编码氨基酸的密码子时,多肽链的合成将继续进行下去,肽链延长直到遇到下一个终止密码子时方停止,因而形成了延长的异常肽链。也称延长突变(elongation mutation)。
(2)移码突变:
是指在DNA分子中插入或丢失一个或几个核苷酸对,造成该位置以后的密码子的编码顺序全部发生改变,从而引起遗传信息的大幅度改变。从突变导致后果来看,移码突变比点突变要严重得多。
(3)动态突变:
基因的编码序列和侧翼序列中的短串联重复序列(如三核苷酸重复)在世代传递中重复拷贝数发生异常扩增而导致的突变。如脆性X综合征(fragile X syndrome)和亨廷顿病的发生机制都与此突变有关。
3.基因突变的表型效应
生物的一切性状都是通过基因控制蛋白质合成来决定的,如果基因发生突变,即基因中的碱基种类或排列顺序发生改变,则可导致其所控制的多肽链中的氨基酸种类或排列顺序发生改变,蛋白质或酶的组成或结构出现异常,从而导致一系列相关疾病的发生。根据基因突变所影响的蛋白质的性质不同,可将这类疾病分成两大类:先天性代谢缺陷和分子病。
(1)先天性代谢缺陷:
又称为遗传性酶病或先天性代谢病,是指由于控制酶蛋白合成的基因发生突变,导致酶蛋白缺陷,由此引起该酶所催化的反应中断,致使机体代谢紊乱而引起的一系列疾病。
(2)分子病:
是指由基因突变引起蛋白质的结构或数量发生改变,从而直接导致机体功能障碍所造成的一类疾病。在生物体内,蛋白质是生命活动的主要承担者,根据其在生物体内的功能不同,分子病可分为运输性蛋白病、膜蛋白病、受体蛋白病、凝血因子病、免疫蛋白缺陷病等若干类型。
4.基因突变的特点
(1)可逆性:
基因突变有时是可逆的,如显性基因 D可突变为隐性基因 d,隐性基因 d也可以突变为显性基因 D
(2)多向性:
同一基因在群体中可以发生多种不同的突变,产生许多等位基因,从而形成复等位基因。例如形成人类的ABO血型的I A、I B、i三种基因构成的复等位基因就是突变多向性的结果。
(3)多害少利性:
大多数基因突变对生物来说是不利的,任何基因突变都将打破原有的基因平衡,从而对生物产生不利影响;而有些基因突变却可以使生物产生与环境相适应的有利变异,使之能更好地适应生存环境的改变,使生物得以进化发展,因此,也可以说,基因突变为生物进化创造了机会。
(4)稀有性:
在自然状态下,基因突变是极少发生的。在高等生物中,各种基因自发突变的概率为10 -8~10 -5/(生殖细胞·代)。即每十万个至一亿个生殖细胞才会有一个基因发生突变,人类基因的自发突变率为10 -6~10 -4/(生殖细胞·代),即每一万个至一百万个生殖细胞才会有一个发生基因突变。
(5)重复性:
在同一生物物种中,不同的个体可能发生相同的基因突变,称作基因突变的重复性。如人类的红绿色盲基因可以在人群的不同个体中反复多次出现。
四、人类基因组
(一)人类基因组的构成
基因组(genome)是一个细胞或一种生物体的全套遗传信息。人类基因组是指人的所有遗传信息的总和。对二倍体生物来说,每个配子具有一个染色体组,每个染色体组所含的全部基因通常被称为一个核基因组。事实上,人体细胞中,DNA除了主要存在于细胞核中外,在线粒体内也含有少量的环状DNA分子,这些环状DNA分子也携带着部分遗传信息,并可通过复制、转录和翻译影响人类部分性状的遗传,这些基因共同组成线粒体基因组。因此,人类基因组实质上包含了核基因组和线粒体基因组两部分。
核基因组由3.16×10 9个碱基对所组成,分布在22条常染色体和X、Y两条性染色体上。目前估计人类结构基因(有特定蛋白质产物的基因)的总数大约2.5万个,此外,人类基因组还包括基因间的间隔序列、重复序列、基因插入序列等。这些序列的存在使基因在整个基因组中呈现不均等的分布格局,有些染色体上基因高密度分布,而有些染色体则表现基因分布密度相对较低。
人类基因组的DNA序列按其重复程度的大小,可分为单一序列、中度重复序列和高度重复序列三大类。单一序列是指一个基因组中只有一个或少数几个拷贝的DNA序列,绝大多数编码蛋白质和酶的基因就属于这一类,这类基因约占基因组的45%~60%。中度重复序列是指具有10 2~10 5次拷贝的DNA序列,约占基因组的30%,多数只能转录不能翻译的基因属于这一类,如 tRNA基因、 rRNA基因等,在基因调控中起重要作用。高度重复序列是指重复次数大于10 5的DNA序列,约占基因组的10%~25%,此类序列通常位于染色体的着丝粒、端粒以及Y染色体长臂的异染色质区,它们通常不能被转录,其作用在于维持染色体结构的稳定性以及协助实现减数分裂时同源染色体的联会等。事实上,人类基因组中大量的非编码序列,只有很少一部分具有调节功能,绝大部分并无特殊功能。因此,这些无特殊功能的部分虽然积累了大量的缺失、重复及其他突变,对生物性状并无影响,其具体功能尚有待于进一步研究。
人类线粒体基因组共含有37个基因,由16 569个碱基对(bp)组成。与细胞核基因相比,线粒体基因组的特点是:排列紧密,无内含子序列;基因之间一般无间隔,甚至会出现基因重叠现象;个别密码子不同于核密码子。由于成熟的精子几乎不含细胞质,所以精子内线粒体极少,受精时,只是精子的核进入卵母细胞,细胞质基本不能进入,所以,受精卵中的线粒体基本全部来自于母方,故线粒体DNA表现为母系遗传的特性。
(二)人类基因组计划
人类基因组计划(Human Genome Project,HGP)于1985年由美国科学家一经提出,立即引起了全世界的强烈反响。1988年,美国率先成立了“国家人类基因组研究中心”,1990年10月正式启动该计划。随后,意大利、英国、法国、德国也陆续启动各自的基因组计划,并于1990年6月通过欧共体“欧洲人类基因组计划”。接着,丹麦、日本、韩国、俄罗斯和澳大利亚也陆续加入该计划的研究行列,该计划最终于2003年4月全部完成。1999年中国获准加入人类基因组计划,承担了其中1%的测序任务,成为参与这一研究计划的唯一的发展中国家。“人类基因组中国卷”于2001年8月提前完成。2003年4月14日,美、日、德、法、英、中六国科学家联合宣布:人类基因组序列图绘制完成!标志着人类基因组计划目标的全面实现。
人类基因组计划的基本任务是绘制四张图谱:遗传图谱、物理图谱、序列图谱和基因图谱。遗传图谱又称连锁图谱,即在基因组中寻找可以表明基因之间位置关系的遗传标志;物理图谱是把庞大的人类基因组先打成许多大小不一的片段,再按其中的遗传信息和物理信息进行拼接,以方便在一定区域中寻找某一基因;序列图谱是绘制人类DNA中30亿个核苷酸组成的人类基因组的序列图;基因图谱就是在人类基因组中找出仅占总长2%~5%的全部基因的位置、结构并确定其功能。
(三)后基因组研究
人类基因组计划完成后,人们了解了人类和其他生物基因组序列特征,下一步需要解决的问题就是如何利用这些以指数扩增速度不断扩容的基因组信息,将这些知识转化应用于临床。基因组研究重点已经由结构研究转向功能研究,进入后基因组时代。相对于以测序为目的的人类基因组计划而言,后基因组研究侧重对功能基因组、蛋白质组、基因的比较与鉴定、基因组与生命形成和生物进化的关系以及药物基因组的研究,因此也称作功能基因组研究。
功能基因组研究是利用结构基因组学提供的序列信息,基因组整体水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向对多个基因或蛋白质同时进行的系统研究。主要研究内容包括:功能基因组学核心问题一般包括基因组多样性、多基因协调表达以及蛋白质产物的功能等;模式生物体和生物信息学技术成为研究功能基因组学的重要工具。
随着对基因组学研究的逐步深入以及与其他学科的交叉,在后基因组时代产生了许多新的专业学科,除功能基因组学和蛋白质组学外,又出现了比较基因组学、环境基因组学、药物基因组学、基因组多态性的研究以及模式生物体基因组研究等。
(张开立)