蛋白质结构预测

来自维基百科,自由的百科全书

蛋白质结构预测

蛋白质结构预测(英語:Protein structure prediction)是指从蛋白质的氨基酸序列中预测蛋白质的三维结构。也就是说,从蛋白質一級結構预测它的折叠二级三级四级结构。结构预测与蛋白质设计英语Protein design的反问题有着根本的不同。蛋白质结构预测是生物信息学与理论化学所追求的最重要目标之一;它在医学上(例如,在药物设计)和在生物技术上(例如,新的的设计)都是非常重要的。每隔两年,当前蛋白质结构预测技术的性能在蛋白质结构预测技术的关键测试(CASP)实验中被评测。蛋白质结构预测的网络服务器连续的评测是由社区项目CAMEO3D英语CAMEO3D执行。

Thumb
氨基酸组成可以被分析来预测二级,三级和四级蛋白质结构。

蛋白质结构和术语

蛋白质是由氨基酸链通过肽键连接在一起。与α碳原子相连的C-N键和C-C键相对旋转,产生了蛋白质主链的多种构象,也正是这些构象变化造成了蛋白质三维结构上的差异。每一个氨基酸的主链都是极性的,即 碳氧双键上的碳原子带正电性、氧原子带负电性(δ+ C=O δ-),氧原子可以作为氢键受体;氮氢单键有(δ- N-H δ+),氮原子可以作为氢键供体。这些基团在蛋白质结构中便可以相互作用。根据侧链结构的不同可以分为20种常见氨基酸,各自在蛋白质中扮演着重要的角色。甘氨酸(Glycine)的角色往往很特殊,因为它的侧链是最小的,只有一个氢原子,没有侧链的空间位阻就增加了主链的局部灵活性。半胱氨酸(Cysteine)可以与另一个半胱氨酸发生交联反应形成二硫键,使蛋白质整体更加稳定。

蛋白质结构的形成以二级结构元素(Secondary Structure Elements, SSE)为基础,二级结构中有α螺旋和β折叠,它们共同构成了蛋白质链的三级结构。在这些常见的二级结构中,相邻的氨基酸之间形成氢键,主链也有类似的Φ(或者φ,Phi)和Ψ(Psi)角。

Thumb
ψ and Ψ 角的定义

这些结构的形成使每个氨基酸主链的极性得到了中和和稳定。在疏水环境里,二级结构常常紧密地堆叠形成蛋白质核心。每个氨基酸侧链的体积的限制,加之与邻近侧链可能产生的相互作用的限制,我们需要运用分子模拟与结构叠合的手段来预测蛋白质的细微结构[1]

α螺旋

Thumb
一個α-螺旋帶氫鍵(黃色點)

α螺旋是在蛋白质二级结构中最丰富的类型。α螺旋的平均每个螺旋周期包含3.6个氨基酸,形成一个氢键,在每4个残基中;平均长度为10个氨基酸(3个螺旋)或10埃(Å),但变化范围5到40(Å)(1.5个至11个螺旋)。沿螺旋排列的氢键也构成了带部分电荷的偶极矩,氮端带部分正电。因为氮端有自由的氨基,可以与带负电的基团,比如磷酸基团,进行反应。α螺旋常位于蛋白质核心区靠近表面的位置,有利于于水环境发生作用。面向蛋白内部的螺旋倾向于采用更多的疏水氨基酸,面向外部的多为亲水氨基酸。因此,螺旋链上每四个氨基酸中位置处于的第三位的多为疏水,这也很特征很容易被识别出。比如对亮氨酸拉链模体Leucine zipper motif)有高度预测性的重复特征是两个相邻的螺旋相对的面上均有亮氨酸的存在。螺旋轮图可以显示出这种重复性的特征。其它的藏在蛋白质核心区或者细胞膜内的α螺旋会更经常分布疏水氨基酸,这样的结构也更能被预测。 暴露在螺旋表面的氨基酸中疏水氨基酸所占的比例会更小。所以说氨基酸的类别组成可以用来预测α螺旋区域。那些有更多丙氨酸(Alanine,A)、谷氨酸(Glutamic acid,E)、亮氨酸(Leucine,L)、蛋氨酸(methionine,M),更少脯氨酸(Proline,P)、甘氨酸(Glycine,G)、酪氨酸(Tyrosine,Y)、丝氨酸 (Serine,S)的氨基酸容易形成α螺旋。脯氨酸通常破坏或者使α螺旋更不稳定,但是在更长可以存在因为它在α螺旋中形成一个弯折。

β折叠

环肽链

卷曲

一个二级结构的区域不是一个α螺旋,一个β折叠,或可识别的转动,通常被称为一个卷曲(Coils)[1]

蛋白质分类

蛋白质可以根据其结构和序列相似性进行分类。在结构分类方面,已知的三维结构被用来比较前述段落中描述的次级结构的大小和空间排列。而基于序列相似性的分类则是最早被采用的方法。最初,通过比对整个序列来判断相似性,随后,蛋白质被分类为具有保守氨基酸模式的类别。目前,已有多个数据库按照一种或多种分类方法对蛋白质进行整理和归类。

在研究蛋白质分类方案时,需要注意以下几点。首先,来自不同进化起源的两个完全不同的蛋白质序列可能会折叠成相似的结构。相反,一个古老基因的序列虽然在不同物种中发生了较大程度的变化,但其基本结构特征可能仍然保持不变。在这种情况下,识别其剩余的序列相似性可能会非常困难。其次,如果两个蛋白质的序列相似度较高,无论是彼此之间还是与第三个序列相比,它们很可能具有共同的进化起源,并且应当共享某些结构特征。然而,在进化过程中,基因复制和基因重组可能会产生新的基因拷贝,使其演化出具有新功能和新结构的蛋白质。[2]

常用于描述蛋白质进化与结构关系的术语

常用于描述蛋白质进化和结构关系的术语列举如下。此外,还有许多术语用于描述蛋白质的各种结构特征。这些术语的详细说明可在CATH网站、蛋白质结构分类(SCOP)网站以及瑞士生物信息学Expasy网站上的葛兰素史克教程中找到。

活性位点(Active site)

指蛋白质三级(三维)或四级(蛋白亚基)结构中由氨基酸侧链基团形成的特定区域,可与特定的化学底物相互作用,并赋予蛋白质生物活性。具有完全不同氨基酸序列的蛋白质可能会折叠成相同的活性位点结构。

构架(Architecture)

指蛋白质三维结构中次级结构的相对取向,而不考虑它们是否具有相似的环状结构。

折叠(拓扑结构)(Fold/Topology)

一种特殊的构架,其中环状结构是保守的(即在进化过程中保持不变)。

区块(Blocks)

蛋白质家族中保守的氨基酸序列模式。该模式在序列的每个位置包含一系列可能的匹配项,但不允许插入或删除氨基酸。相比之下,序列模式(sequence profile)是一种包括插入和删除的评分矩阵。

类别(Class)

根据蛋白质结构域的次级结构含量和组织方式进行分类的术语。Levitt和Chothia(1976)最初定义了四类,SCOP 数据库后来增加了其他类别。CATH数据库将蛋白质分为三大类:主要为 α-螺旋(mainly-α)、主要为 β-折叠(mainly-β)和 α-β(同时包含交替的 α/β 和 α+β 结构)。

核心(Core)

指折叠蛋白分子中 α-螺旋和 β-折叠所形成的疏水性内部结构。其紧凑的结构使氨基酸侧链相互靠近并发生相互作用。在蛋白质结构比对中(如 SCOP 数据库),核心是大多数具有相同折叠结构或属于同一超家族的蛋白质共有的区域。在结构预测中,核心通常被定义为在进化过程中可能保持不变的次级结构排列。

结构域(Domain,序列背景)

指肽链中可以独立折叠成三维结构的片段,无需依赖其他片段。蛋白质的不同结构域可能相互作用,也可能仅通过多肽链的一小部分连接在一起。具有多个结构域的蛋白质可以利用这些结构域与不同的分子进行功能性交互。

家族(Family,序列背景)

指一组具有相似生化功能的蛋白质,其序列比对的相似度超过 50%。该标准仍被蛋白质信息资源(PIR)采用。蛋白质家族包括不同生物体中执行相同功能的蛋白(直向同源,orthologs),也可能包括同一生物体内由于基因重复和重组产生的蛋白(旁系同源,paralogs)。如果蛋白家族的多重序列比对在整个蛋白序列长度上保持相似性,PIR 将其称为同构家族(homeomorphic family)

家族(Family,结构背景)

在 FSSP(Families of Structurally Similar Proteins)数据库和 DALI/FSSP 网站中,家族定义为在结构上具有显著相似性但不一定在序列上相似的蛋白质。

折叠(Fold)

类似于结构基序(structural motif),但包括更多的次级结构单元,并且这些次级结构按照相同的方式连接。例如,罗斯曼折叠(Rossman fold)由多个交替的 α-螺旋和平行 β-折叠组成。在SCOP、CATH 和 FSSP数据库中,已知的蛋白质结构被分为不同层级的结构复杂性,其中折叠是基本的分类层级之一。

同源结构域(Homologous domain,序列背景)

指通过序列比对发现的扩展序列模式,表明这些序列具有共同的进化起源。同源结构域通常比基序(motif)更长,可以覆盖整个蛋白质序列或仅包含其中一部分。有些结构域较为复杂,由多个较小的同源结构域组合而成。

模块(Module)

指由一个或多个保守氨基酸模式组成的结构或功能基本单元。蛋白质的模块特征也被用于分类不同的蛋白质家族。

基序(Motif,序列背景)

指在两个或多个蛋白质中保守的氨基酸模式。在Prosite目录中,基序是存在于一组具有相似生化活性蛋白中的氨基酸模式,通常位于蛋白的活性位点附近。例如,Prosite目录和斯坦福基序数据库(Stanford Motifs Database)包含多个已知的序列基序。

基序(Motif,结构背景)

指由于多肽链的折叠,多个相邻的次级结构单元组合成的特定三维结构。例如,螺旋-环-螺旋(helix-loop-helix)基序。结构基序也被称为超次级结构(supersecondary structure)或折叠(fold)。

位置特异性评分矩阵(英语:Position weight matrix)(Position-specific scoring matrix, PSSM,序列背景)

表示在多重序列比对中无间隙(gap-free)的保守区域。矩阵的每一列代表比对中的一个氨基酸位点,每一行代表 20 种氨基酸之一,矩阵值表示每种氨基酸出现在该位置的可能性。

位置特异性评分矩阵-3D(PSSM-3D,结构背景)

表示落入同一结构类别的蛋白质比对中的氨基酸变化情况。矩阵列代表比对结构中的氨基酸位点,矩阵行表示 20 种氨基酸。

一级结构(Primary structure)

蛋白质的线性氨基酸序列,即氨基酸通过肽键连接形成的多肽链。

轮廓(Profile,序列背景)

一种评分矩阵,表示蛋白质家族的多重序列比对。它通常由比对中保守区域获得,每列代表比对中的一个位置,每行代表 20 种氨基酸之一。

轮廓(Profile,结构背景)

表示在已知蛋白质结构中的每个氨基酸位置,哪些氨基酸更适合,哪些氨基酸较不适合。

四级结构(Quaternary structure)

由多个独立多肽链组成的蛋白质的三维构象。

二级结构(Secondary structure)

描述蛋白质主链中C、O和NH基团之间的相互作用,形成α-螺旋、β-折叠、转角(turn)、环(loop)等结构,并帮助蛋白质折叠成三维结构。

超家族(Superfamily)

由多个蛋白质家族组成的群体,这些家族之间存在可检测到的远亲序列相似性。超家族成员具有共同的进化起源,可能表现出相似的结构或功能特征。SCOP和CATH数据库中均使用超家族这一分类层级。

软件工具

目前已有大量用于蛋白质结构预测的软件工具。常见的方法包括同源建模(homology modeling)、蛋白质折叠模拟(protein threading)、从头预测(ab initio methods)、二级结构预测(secondary structure prediction)、跨膜螺旋(transmembrane helix)及信号肽(signal peptide)预测。特别是,自2007年以来,基于长短期记忆深度学习已被用于蛋白质同源性检测,并成功预测了蛋白质的亚细胞定位。[3]近年来,在CASP(蛋白质结构预测关键评估)实验中表现突出的方法包括I-TASSER、HHpred和AlphaFold。其中,2021年的研究报告显示,AlphaFold的预测效果最佳。[4]

了解蛋白质的结构通常可以帮助推测其功能。例如,胶原蛋白(collagen)折叠成一种细长的纤维状链,因此它是一种纤维蛋白(fibrous protein)。近年来,一些技术已被开发用于预测蛋白质折叠及其结构,例如I-TASSER和AlphaFold。

人工智能方法

AlphaFold是最早用于预测蛋白质结构的人工智能之一。它由谷歌DeepMind在2018年第13届CASP竞赛中首次推出。[4]AlphaFold采用神经网络方法,利用氨基酸序列及比对的同源序列,直接预测蛋白质中所有非氢原子的三维坐标。AlphaFold的神经网络由一个主干(trunk)组成,该部分通过重复层处理输入数据,同时包含一个结构模块(structure module),用于显式引入三维结构。[4]早期的蛋白质结构预测神经网络使用了长短期记忆[3]

由于AlphaFold直接输出蛋白质坐标,其预测时间在图形处理单元(GPU)上通常为几分钟到几小时,具体取决于蛋白质序列的长度。[4]

欧洲生物信息学研究所DeepMind合作构建了AlphaFold-EBI数据库,[5]用于存储预测的蛋白质结构。[6]

目前的AI方法及预测蛋白质结构数据库

AlphaFold2在CASP14中首次亮相,能够以接近实验精度预测蛋白质结构。[4]AlphaFold之后迅速迎来了RoseTTAFold,[7]以及后来的OmegaFold和ESM Metagenomic Atlas。

在一项研究中,Sommer等人(2022)展示了蛋白质结构预测在基因组注释中的应用,特别是在使用计算预测结构识别功能性蛋白质亚型方面,该研究成果可在 https://www.isoform.io 查阅。[8]这项研究突出了蛋白质结构预测作为基因组注释工具的潜力,并提出了一种实用的、基于结构的指导方法,可用于增强任何基因组的注释。

2024年,戴维·贝克德米斯·哈萨比斯因其在计算蛋白质建模方面的贡献,包括开发AlphaFold2,获得诺贝尔化学奖[9]AlphaFold2的预测准确性通过均方根误差与实验结构对比评估,[10]预测结果在高置信度区域与实验结构的均方根误差为0.6 Å,但在低置信度区域可能超过2 Å。对于多结构域蛋白,AlphaFold2能准确预测各结构域,但可能随机分配它们的位置,且未考虑如膜平面等结构限制。[11]

自动结构预测服务器评估

CASP(蛋白质结构预测技术的关键测试)是一项自1994年以来每两年举办一次的社区实验,用于评估蛋白质结构预测。CASP为评估现有的人工(人类类别)和自动化预测方法(服务器类别,从CASP7开始引入)提供了机会。[12]

持续自动化模型评估英语CAMEO3D服务器每周评估自动蛋白质结构预测,使用盲预测评估新发布的蛋白质结构,并将结果发布在其网站上。

参考文献

延伸閲讀

参阅

外部链接

Wikiwand - on

Seamless Wikipedia browsing. On steroids.