如何预测新基因编码蛋白的氨基酸序列
时间:2021-08-21 阅读:2234
当我们想研究一个新基因的功能时,我们首先预测一下它是否编码蛋白,如果编码蛋白,那编码出的蛋白的最有可能的氨基酸序列是什么?
当我们预测出该基因编码的蛋白的氨基酸序列后,在数据库中比对,如果比对出了一个高度相似的已知蛋白,那我们可以根据该蛋白的功能来大概的推测我们要研究的新基因所编码的蛋白的功能,这将为我们之后研究该新基因的功能提供方向。
接下来我们就来说一下怎样预测一个新基因编码的蛋白的氨基酸序列。首先我们需要做的就是通过 5’- and 3’-RACE 技术得到该基因的全长 cDNA 序列,然后按以下步骤进行即可。
1.首先打开:web.expasy.org/translate/
2.将 DNA/RNA 序列输入白色框中(应输入 cDNA 序列)
3.点击下方的 TRANSLATE SEQUENCE。
4.点击 TRANSLATE SEQUENCE 后会看到如下结果(红色部分为可能的该段 DNA 序列的 ORF 编码的氨基酸,因为输入 cDNA 序列后,并不是该段序列上的所有碱基都用来编码氨基酸, 而是只有位于 ORF 框内的碱基用来编码氨基酸,ORF 是不确定,所以编码的蛋白也不确定,那我们现在要做的就是得到最有可能的 氨基酸序列,红色区域为各种可能)。
5.一般我们认为红色最多(即最长)的就是该段 cDNA 序列编码的氨基酸序列。
6.因为第一个红色最多(即最长),那接下来就点击第一个。
7.点击进入后会看到以下结果,我们会看到红色中有许多的蓝色字母(画红线的部分),如果我们仔细看了之后会发现蓝色部分就是M---甲硫氨酸,我们都知道真核蛋白的起始氨基酸都是甲硫氨酸,也就是说画红线的部分就是可能的起始氨基酸部分,那只有一个是最有可能的,那就是使氨基酸序列最长的。因为下图的结果中只有一个终止------在最后面,那我们选择第一个划线的 M 作为起始氨基酸使编码的氨基酸序列最长 ,所以第一个M 最有可能是起始氨基酸。
8.那接下来就点击第一个蓝色的M,点击后进入会看到以下结果(红色框内即为该段cDNA序列最有可能编码的氨基酸序列)
9.我们还可以看到在结果的的最下方有一些工具(点击第一个划线部分可以得到该段氨基酸序列的 Fast 格式。那下方的四个划线部分就是一些分析蛋白氨基酸序列的一些工具,比如可以拿该段氨基酸序列在数据库中 Blast,划线部分的这些工具就是对该段氨基酸序列进行进一步的分析,得到有关该段氨基酸序列更多的信息)。