蛋白質超家族(英語:protein superfamily)是對可以找到共同祖先的最大一組蛋白質的合稱。一般而言,共同祖先是基於結構比對英語Structural alignment[1]和物理性質得出的,即使序列相似性英語sequence similarity不高,[2]也可能會具有共同祖先。蛋白質超家族中往往還會有內部聯繫相對更近的蛋白質家族[2][3]

識別

Thumb
如圖展示了PA蛋白酶超家族的二級結構保守性,H代表α-螺旋,E代表β-摺疊,L代表環;下欄則是同一蛋白超家族的序列保守性。箭頭指示了催化活性的關鍵位點。

蛋白質超家族可以用多種方法進行鑑定。

序列相似性

Thumb
圖片展示了哺乳動物組蛋白H1的序列比對結果,序列之間的高度相似說明了它們是通過基因複製進化而來。在每個蛋白序列中都保守(沒有變化)的殘基用灰色標出,最下面的一行的標記總結了這段序列的保守性:保守序列(*),保守突變(:),半保守突變(.),非保守突變( )[4]

之前,不同蛋白質序列之間的相似性曾被作為推斷同源性最常用的指標。[5]序列相似性被認為是相關性的一個指示物,因為相似的序列很有可能來自於基因重複趨異進化,而不太可能來自於趨同進化。由於密碼子簡併的緣故,蛋白質的氨基酸序列一般比核酸序列更具有同源性。由於某些氨基酸的性質較為相似(在大小、電荷、疏水性等方面),發生在它們之間的保守突變往往對蛋白質的功能僅具有中性的影響。基本上,蛋白質序列中最保守的區段就是它們的結合活性位點和催化活性位點,因為這些區域發生的突變往往會對蛋白質功能產生負面的影響,從而不會在進化中流傳下來。

然而,用序列相似性來推斷同源性也有諸多不足。首先,相似的結構也可以來自於相似性較低的序列;其次,在漫長的進化過程中,相關序列之間的相似性也可能會降到無法識別的地步;最後,具有較多插入刪除突變的序列也很難用序列比對進行分析。例如,在PA蛋白酶超家族中,沒有一個氨基酸殘基是在所有成員中都相同的,即使是在催化三聯體處的氨基酸也是如此。反之,PA超家族中的C04蛋白酶家族就是基於序列比對而劃分出來的。

不過,序列相似性如今依然是推斷同源性特徵最常用的指標,因為已知的蛋白質序列數量要遠遠超過已知的蛋白質三級結構數量。受限於蛋白質結構數據的不足,蛋白質超家族的劃分仍然十分依賴序列相似性的分析[6]

結構相似性

Thumb
圖片展示了PA蛋白酶超家族的結構同源性,作為這個超家族的特徵的兩個β-桶狀結構用紅色標出。

蛋白質結構在進化上比蛋白質序列更為保守,具有相似結構的蛋白可以具有完全不同的的氨基酸序列。[7]在足夠長的進化時間尺度上,氨基酸序列(一級結構)上的相似性幾乎難以發現,但是二級結構的元件和三級結構的基序仍然是高度保守的。一些蛋白動力學特徵[8]構象改變的方式也有可能被保存下來,例如絲氨酸蛋白酶抑制劑(Serpin)超家族。[9]因此,即使序列上無法找到相似性,也可以通過蛋白質結構信息來推斷其同源性。結構比對的程序,例如DALI,就可以通過分析蛋白的三維結構來尋找與之有相似摺疊方式的其他蛋白。[10]然而,在少數情況下,相關的蛋白質也有可能進化出不同的結構,從而只能夠用其他的手段鑑定其同源性。[11][12][13]

機理相似性

同一蛋白質超家族中,雖然底物的特異性會有較大不同,酶促反應的機理大多是保守的。[14]具有催化活性的氨基酸殘基一般也以相同的順序出現在蛋白質序列中。[15]在PA蛋白酶超家族中,即使各個家族間催化三聯體的氨基酸殘基已經相差甚遠,但它們採用的催化機理都是相似的——與蛋白質、多肽或氨基酸發生共價親核反應[16]但是,僅僅是機理的相似性無法證明同源性,因為一些相似的催化機理是由不同的超家族多次獨立地,以趨同進化的方式得到的結果;[17][18][19]在同一超家族內也會存在一系列不同(或許在化學意義上類似)的催化機理。[14][20]

進化意義

蛋白質超家族代表了我們現在鑑定蛋白質共同祖先的能力極限。[21]現今,這是基於直接證據的,可以劃分出的最大進化類群。它們也因此代表了一些極為古老的進化事件。例如,有些蛋白質超家族的範圍包括了生物類群的全部五,說明了這些超家族的共同祖先蛋白存在於地球上所有生物最後共同祖先(LUCA)體內。[22]

多樣性

大部分的蛋白質(66-80%的真核蛋白質和40-60%原核蛋白質)含有多個結構域,[5]在進化過程中,不同超家族的結構域之間會發生互相混合,事實上不與其他超家族發生重組的超家族是很難找到的。[5][1]當結構域之間發生重組時,其從N端到C端的順序往往是保守的。此外,在自然界可以找到的結構域組合比理論上可能出現的情況要少得多,或許是自然選擇的結果。[5]

蛋白質超家族的例子

鹼性磷酸酶超家族 - 具有相似的αβα三明治結構[23],催化機理也有相似之處。[24]

珠蛋白超家族 - 相似的八次α螺旋結構。[25][26]

免疫球蛋白超家族英語Immunoglobulin superfamily - 相似的反平行β摺疊結構,在識別、結合、黏附功能上具有重要性。[27][28]

PA蛋白酶超家族 - 具有相似的類胰凝乳蛋白酶雙β桶狀結構,相似的蛋白酶解機理,但是序列相似性<10%。[2][29]

Ras超家族 - 相似的催化G結構域,由6個β片層和5個α螺旋組成。[30]

絲氨酸蛋白酶抑制劑超家族 - 具有相似的高能應力摺疊,可以發生較大的構象改變,並從而抑制絲氨酸蛋白酶半胱氨酸蛋白酶的活性。[9]

蛋白質超家族資源

已有若干生物數據庫收錄了蛋白質超家族和結構摺疊的數據,例如:

  • Pfam - 蛋白質家族、序列比對數據
  • PROSITE - 蛋白質結構域、家族、功能位點
  • PIRSF - 超家族分類系統

也有可供在蛋白質資料庫(PDB)中尋找特定相似結構的算法,例如:

  • DALI - 基於距離對齊矩陣的結構比對方法

參見

參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.