第1章 害群之马:基因、细胞及癌的性质
千万种碱基序列。
DNA碱基序列的变化多端意味着,在理论上,DNA分子足以容纳任何信息,无论生物信息还是其他。初初一看,仅仅四个字母的组合提供的信息携带能力非常有限,但实际上,四个字母已经绰绰有余。摩尔斯电码三个字符(点“·”,破折号“一”,空格“’),计算机二进位制代码的两个字符(0和1)同样有无限的信息存储能力。
DNA双螺旋事实上携带着两套遗传信息,相互盘绕的两条链各带一套。自1953年詹姆斯·沃森(Jamesatson)和弗朗西斯·克里克(FrancisCrick)划时代的发现以来,我们知道双螺旋一条链中的A总是与对面那条链中的t对应;C则必然对应着G。因此一条链上ACCGGtCAA序列将与另一条链上的互补序列tGGCCAGtt相互盘绕。
由一链的碱基序列能够推知另一链上的序列,因此一条链携带的信息也体现在另一条链中,虽然表现为互补语言。这种信息储备有很多益处,其中最重要的是螺旋因之能够被复制。尤其如图1.1所示,两部分各自可以作为独立的模板来复制新的互补序列,新序列再包裹着自己的模板。结果,两个双螺旋子体彼此之间、以及同它们的双螺旋母体之间,都是一模一样的。
当细胞生长、分裂时,碱基序列的复制显出其重要性。在此过程中,一个母细胞把精确复制自身DNA螺旋的能力赋予它未来的子细胞。母子传递使最初受精卵DNA中含有的遗传信息在几百回合的细胞分裂过程中连续传递给几十亿个后代细胞,这些细胞最终形成成年人体。
那么抽象的基因概念究竟是如何同DNA分子的物质结构联系起来的呢?细胞染色体中包含的DNA双螺旋常常有几亿个碱基对的长度。这些碱基长链按其信息区划可以分成不同部分,每一区划构成一个基因。一个普通的人类基因由几万个DNA碱基组成。在四个字母代码组成的碱基序列中,有某些标点符号标志着基因的始终。在英文中,句首是一个空格再加一个大写字母;基因的开头则是一个特别的几千个碱基组成的短序列。同样,英文句子用句号结尾,基因尾部也有其独特的碱基序列起着标点符号的作用。在螺旋链上,一个基因的结尾后,标志下一个基因开端的标点序列之前,往往有一个由好几干个碱基组成的序列,这个序列是无意义的遗传杂音。
人类基因组的全部信息内容由30亿个碱基对组成的DNA序列组成,可分为7万一10万个代表不同基因的区域。这些基因以不同组合在我们的细胞内工作,创造出结构极其复杂的人体,包括大脑这个高度精密的器官。
基因、DNA双螺旋、碱基序列的故事为我们理解人类、甚至是地球上所有的生命形式提供了一把金钥匙。但我们在此关注的,仅仅是这一复杂集合中的一小个片段,即人类的癌症。我们可以略过基因是如何指令细胞组合构成组织和器官这个艰难的问题,而把注意力集中在基因是怎样影响个体细胞的成长行为这个范围比较小的问题。
因此我们收拢视线,聚焦控制个体细胞生长的一小部分基因。这些基因将直接引导我们进入癌症问题的核心,它们揭示了癌症的起源,终有那么一天,它们也将给我们指出战胜癌症的光明道路。