Remove ads

蛋白质超家族(英语:protein superfamily)是对可以找到共同祖先的最大一组蛋白质的合称。一般而言,共同祖先是基于结构比对英语Structural alignment[1]和物理性质得出的,即使序列相似性英语sequence similarity不高,[2]也可能会具有共同祖先。蛋白质超家族中往往还会有内部联系相对更近的蛋白质家族[2][3]

识别

Thumb
如图展示了PA蛋白酶超家族的二级结构保守性,H代表α-螺旋,E代表β-折叠,L代表环;下栏则是同一蛋白超家族的序列保守性。箭头指示了催化活性的关键位点。

蛋白质超家族可以用多种方法进行鉴定。

序列相似性

Thumb
图片展示了哺乳动物组蛋白H1的序列比对结果,序列之间的高度相似说明了它们是通过基因复制进化而来。在每个蛋白序列中都保守(没有变化)的残基用灰色标出,最下面的一行的标记总结了这段序列的保守性:保守序列(*),保守突变(:),半保守突变(.),非保守突变( )[4]

之前,不同蛋白质序列之间的相似性曾被作为推断同源性最常用的指标。[5]序列相似性被认为是相关性的一个指示物,因为相似的序列很有可能来自于基因重复趋异进化,而不太可能来自于趋同进化。由于密码子简并的缘故,蛋白质的氨基酸序列一般比核酸序列更具有同源性。由于某些氨基酸的性质较为相似(在大小、电荷、疏水性等方面),发生在它们之间的保守突变往往对蛋白质的功能仅具有中性的影响。基本上,蛋白质序列中最保守的区段就是它们的结合活性位点和催化活性位点,因为这些区域发生的突变往往会对蛋白质功能产生负面的影响,从而不会在进化中流传下来。

然而,用序列相似性来推断同源性也有诸多不足。首先,相似的结构也可以来自于相似性较低的序列;其次,在漫长的进化过程中,相关序列之间的相似性也可能会降到无法识别的地步;最后,具有较多插入删除突变的序列也很难用序列比对进行分析。例如,在PA蛋白酶超家族中,没有一个氨基酸残基是在所有成员中都相同的,即使是在催化三联体处的氨基酸也是如此。反之,PA超家族中的C04蛋白酶家族就是基于序列比对而划分出来的。

不过,序列相似性如今依然是推断同源性特征最常用的指标,因为已知的蛋白质序列数量要远远超过已知的蛋白质三级结构数量。受限于蛋白质结构数据的不足,蛋白质超家族的划分仍然十分依赖序列相似性的分析[6]

Remove ads

结构相似性

Thumb
图片展示了PA蛋白酶超家族的结构同源性,作为这个超家族的特征的两个β-桶状结构用红色标出。

蛋白质结构在进化上比蛋白质序列更为保守,具有相似结构的蛋白可以具有完全不同的的氨基酸序列。[7]在足够长的进化时间尺度上,氨基酸序列(一级结构)上的相似性几乎难以发现,但是二级结构的元件和三级结构的基序仍然是高度保守的。一些蛋白动力学特征[8]构象改变的方式也有可能被保存下来,例如丝氨酸蛋白酶抑制剂(Serpin)超家族。[9]因此,即使序列上无法找到相似性,也可以通过蛋白质结构信息来推断其同源性。结构比对的程序,例如DALI,就可以通过分析蛋白的三维结构来寻找与之有相似折叠方式的其他蛋白。[10]然而,在少数情况下,相关的蛋白质也有可能进化出不同的结构,从而只能够用其他的手段鉴定其同源性。[11][12][13]

机理相似性

同一蛋白质超家族中,虽然底物的特异性会有较大不同,酶促反应的机理大多是保守的。[14]具有催化活性的氨基酸残基一般也以相同的顺序出现在蛋白质序列中。[15]在PA蛋白酶超家族中,即使各个家族间催化三联体的氨基酸残基已经相差甚远,但它们采用的催化机理都是相似的——与蛋白质、多肽或氨基酸发生共价亲核反应[16]但是,仅仅是机理的相似性无法证明同源性,因为一些相似的催化机理是由不同的超家族多次独立地,以趋同进化的方式得到的结果;[17][18][19]在同一超家族内也会存在一系列不同(或许在化学意义上类似)的催化机理。[14][20]

进化意义

蛋白质超家族代表了我们现在鉴定蛋白质共同祖先的能力极限。[21]现今,这是基于直接证据的,可以划分出的最大进化类群。它们也因此代表了一些极为古老的进化事件。例如,有些蛋白质超家族的范围包括了生物类群的全部五,说明了这些超家族的共同祖先蛋白存在于地球上所有生物最后共同祖先(LUCA)体内。[22]

多样性

大部分的蛋白质(66-80%的真核蛋白质和40-60%原核蛋白质)含有多个结构域,[5]在进化过程中,不同超家族的结构域之间会发生互相混合,事实上不与其他超家族发生重组的超家族是很难找到的。[5][1]当结构域之间发生重组时,其从N端到C端的顺序往往是保守的。此外,在自然界可以找到的结构域组合比理论上可能出现的情况要少得多,或许是自然选择的结果。[5]

蛋白质超家族的例子

碱性磷酸酶超家族 - 具有相似的αβα三明治结构[23],催化机理也有相似之处。[24]

珠蛋白超家族 - 相似的八次α螺旋结构。[25][26]

免疫球蛋白超家族英语Immunoglobulin superfamily - 相似的反平行β折叠结构,在识别、结合、黏附功能上具有重要性。[27][28]

PA蛋白酶超家族 - 具有相似的类胰凝乳蛋白酶双β桶状结构,相似的蛋白酶解机理,但是序列相似性<10%。[2][29]

Ras超家族 - 相似的催化G结构域,由6个β片层和5个α螺旋组成。[30]

丝氨酸蛋白酶抑制剂超家族 - 具有相似的高能应力折叠,可以发生较大的构象改变,并从而抑制丝氨酸蛋白酶半胱氨酸蛋白酶的活性。[9]

蛋白质超家族资源

已有若干生物数据库收录了蛋白质超家族和结构折叠的数据,例如:

  • Pfam - 蛋白质家族、序列比对数据
  • PROSITE - 蛋白质结构域、家族、功能位点
  • PIRSF - 超家族分类系统

也有可供在蛋白质资料库(PDB)中寻找特定相似结构的算法,例如:

  • DALI - 基于距离对齐矩阵的结构比对方法

参见

参考文献

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.

Remove ads