【破解生物密码】-解密基因及生物学工具Glab的原理
破解生物密码-解密基因及生物学工具Glab的原理阅读本文之前,请了解C语言相关概念及少数编译原理知识
从计算机的角度来讲,所有信息被编码为二进制,最后由cpu进行处理。我们人类是计算机的发明者。我们在发明计算机的时候,使用的是10进制。我们发明计算机时候用到的物理学,化学,都是用我们自己的10进制来描述的。可是大家有没有想过,上帝造我们的时候它用的是几进制?为了回答这个问题,我们首先来看构成我们生命的元素吧。
首先,构成我们生命基础的是细胞。扯远一点:其实上帝手中有一个基类:叫做同心圆球。派生于这个基类的子类有:地球,鸡蛋,等等,然后就是我们的细胞。所以最外层是细胞膜,由磷脂双层分子构成。其次,是细胞质,里边是细胞内绝大多数生化反应的场所。然后就是细胞核。这个细胞的kernel(核心)装载了一套密码,这套密码能制造蛋白质,蛋白质可以构成细胞,肌肉和其他组织。总之,有了这么一套密码,我们可以拥有上帝之手,开始造人了。下面我来仔细刨析生物密码。
对于计算机的上帝:人类来说,人类使用的10进制拥有10个字符表示数字。然而我们的上帝,更中意于2,3,4,20这四个数字。首先,最基本的数字(核酸)有两种,每种的字符(核苷酸)分别为4个。这两种数字为DNA(脱氧核糖核酸)和RNA(核糖核酸)。构成DNA的4个核苷酸:腺嘌呤,鸟嘌呤,胞嘧啶,胸腺嘧啶(简称A、G、C、T)。构成RNA的4核苷酸,其中有三个在制造DNA时候已经使用,而DNA和RNA功能又不同,所以偷懒的上帝简简单单地将DNA中的T也就是胸腺嘧啶替换为U(尿嘧啶)。这时候DNA,RNA两种数字又是如何表示的呢?
AGCTU这些物质,分别加上磷酸(P)构成“一半”的“钥匙(碱基)”。先看DNA。A+P配对T+P、G+P配对C+P。而在RNA,A+P配对U+P、G+P配对C+P。两两配对完成的钥匙,被叫做“碱基对”。在细胞核内,AGCT不同个数不同顺序排列的碱基钥匙按照先前讲的原理配对构成碱基对,然后碱基对螺旋排列,构成DNA分子。DNA分子螺旋长链“乱七八糟”地“堆”在细胞核内。生物信息就被如此这般保存下来了,这些DNA分子就是我们的“源代码”。什么是“基因”呢:可以这样理解:基因就是一个子程序。然后看看上帝安排的“编译原理”吧:
在自然界,人是不可能直接通过复制身体现有化学物质而被复制出来的。通过源代码(DNA)造人,需要一个“编译”的过程。首先,源代码必须被复制。源代码复制的场所(文件夹)是细胞核。造人工程文件,源代码的集合叫做染色体。第一步DNA双螺旋分子在酶的作用下,开始解旋,解旋的过程拆开了碱基对。A-T、G-C的搭配连接被拆开。此时两条碱基招引细胞核内游离的碱基进行重组合。组合完毕,就有了两条顺序相反,内容相同的完整DNA分子。源代码复制被完成。
第二步,其中一条表示相同意思的DNA分子被再次解旋,又来一次。解旋后,开始第一道编译器的工作。又是酶,在生物酶中,DNA分子上的碱基,按照A->U;T->A;G->C;C->G的规律将遗传信息从DNA转移到RNA。完毕后RNA单链被转移出细胞核文件夹。来到细胞质文件夹。
第三步,在细胞质中,汇编器(核糖体)开始工作。先谈汇编器,汇编器源代码由RNA写成。写成RNA的源代码叫做rRNA(原RNA)。其次,汇编器需要脚本,这个脚本叫做tRNA(转移RNA)。然后被编译器翻译的源代码mRNA(信使RNA)就如同编译器将C(DNA)翻译为汇编(mRNA)——进入汇编器。汇编器:核糖体内,脚本tRNA结合mRNA将最终“机器语言”多肽链翻译完毕。此时构成多肽链的基本元素为氨基酸。
多肽链在3维空间内折叠延伸,组成蛋白质。蛋白质构成人体组织,器官。至此,由源代码DNA到人体这个软件/硬件系统的翻译完成。
汇编器“核糖体” 的更进一步原理:
DNA有4种碱基,而构成蛋白质的氨基酸有20种。这里显然需要做一个“进制转换”。那么最终的配比规律是:3个碱基配对一个氨基酸。容我们仔细推敲一下,为什么是3,而不是1,2,4,5,6……首先一个碱基不能决定一个氨基酸,因为碱基总共有4个,而氨基酸多达20个。其次2个碱基能构成氨基酸的数目是4^2=16,离20个氨基酸还差4个,也不行。而3个碱基能构成4^3=64>20个可以了。那为什么不是更多的4个5个6个呢?上帝在精简优化这套语言吗?估计我见到马克思以后可以帮大家问一问上帝。
我们已知三联密码子决定一个氨基酸,在翻译的过程中,汇编器脚本tRNA上的反三联密码子与低级语言mRNA上的碱基进行三三匹配,每匹配完成一组三联密码子,tRNA脚本会进行更新,而原先tRNA携带的氨基酸会转移至新tRNA携带的氨基酸之上,堆积产生初始蛋白质。而汇编编译器“对目标代码的优化”则同时进行。表现为多肽链的水解。这整个过程犹如一个自动机(这里所说的自动机不是通常人们所讲的自动机,而是计算机科学内的自动机。请参见“图灵机”相关文档)。
不知道大家发现没有?RNA链是一维链,“磁头”而又如何在一维链上读取处理的呢?有一种特殊的三联密码子组合叫做:起始密码子,是AUG,或者GUG。可以看作C语言main函数。而又一种特殊的三联密码子叫终止密码子(可以理解为自动机状态)。终止密码子有:UAA、UAG、和UGA。人类是真核细胞构成的生物,而真核基因编译(转录)产物为“单顺反子”。那么原核生物基因编译(转录)为“多顺反子”。在单顺反子模式中对RNA链的翻译顺序从5’端到3’段,而且遇到终止密码子停止翻译并抛弃现有RNA。在多顺反子模式中对RNA链的翻译顺序也是从5’端到3’段,但遇到终止密码子停止翻译“不”抛弃现有RNA,在现有RNA链后边继续寻找起始密码子,以便开始翻译。这就相当于多个main函数。显然真核生物是真正的C编译器,因为C语言不允许存在多个main。而人类又是真核生物,人类发明了C。这是不是巧合呢?不好意思,我又得去见马克思了。
总结一下:高级语言源代码(DNA)通过编译(生物学叫法:转录)翻译为低级语言源代码(RNA)然后通过汇编器(核糖体)汇编(生物学叫法:翻译)翻译为机器语言代码(多肽链)。注意:高级语言DNA与低级语言RNA之间可以互相转换。RNA到DNA的过程叫做:逆转录。这整个一套机制,就是“编译原理”。生物学对编译原理有专门名词:中心法则。那么语言的高级低级又象征着什么?我们知道程序语言的高低级之分区别于人类可读写程度,那么说DNA语言高级RNA语言相对低级,其实是在讲分子的稳定性。
基因工程与GLAB
知道了这么一套原理,我们可以对原本自然生成的源代码加以改进。对源代码的操作:剪切、粘贴,由两种工具酶完成。负责剪切工作的工具酶叫做:限制酶。负责粘贴工作的工具酶叫做:连接酶。被剪切的文本断点叫做“切位点”。一种限制酶只能造成一种断点。同样,一种连接酶只能黏贴一种断点的两段DNA分子。对于高级语言DNA有高级语言专用工具酶。低级语言RNA,拥有RNA专用工具酶。使用各种工具酶,对DNA源代码加以改造,将改造好的DNA编译,汇编,形成多肽链、蛋白质,最终表现在生物体。
Glab就是我专门为模拟这么一套操作而开发的软件。
基因工程示例:
在DNA子窗体中,我们可以编辑DNA链,用AGCT4种不同的核苷酸组成DNA。利用“模拟”菜单中的两个子项,我们能进行模拟生物工程操作。
使用DNA窗体下“DNA”菜单中的转录功能,可以将DNA转录为RNA。
在RNA窗体中,我们可以编辑RNA链。使用菜单“RNA”逆转录子项,可以进行逆转录。使用翻译子项,可以将RNA翻译为多肽链。
接下来我们通过一道例题说明:
已知DNA双链中一条单链的脱氧核苷酸序列为:
AAAGGTCTCCTCTAATTGGTCTCCTTAGGTCTCCTT
1.将上述链翻译为多肽链,标记为多肽链1
2.将第20位T改为G翻译为多肽链,标记为多肽链2
3.比较多肽链1,2异同。
解法见文件:
GLab软件下载:
Glab源代码下载: 我擦。。 擦我 对仗一下 {:soso_e113:} 不懂。。路过。。
页:
[1]