
设计目标结构来自蛋白质数据库(PDB),包括以下蛋白质折叠:IGF(3SD2),BBF(6D0T)30,TBF(5BVL)38,Claudin(4P79)61,Rhomboid Protease(3ZEB)44和GPCR(6FFI)(6ffi)(6ffi)62。由于TBF,Claudin和GPCR X射线结构缺少残留位置,因此我们使用AF2使用X射线结构作为模板来预测蛋白质结构。Claudin(残基34-40)和GPCR(残基875-896)靶标的无序区域分别被三甘氨酸和五甘氨酸接头代替。使用实验结构作为模板预测GPCR序列,但没有内溶蛋白结构域(残基679-838)用于结晶。
对于误差梯度的计算,使用了复合损失函数:
损耗函数表示为l的组合,该组合表示损失的值,而W表示损失的重量。框架对齐点误差(FAPE)损耗量化了预测的Cα原子与目标结构之间的L2规范。距离(DIST)损耗是非甘氨酸残基的Cβ距离上的交叉熵,而在甘氨酸的情况下则是Cα距离。通过服用1 -PLDDT来计算Cα位置的模型置信度(PLDDT)损失,从而惩罚了低置信度。最后,PTM得分损失是一个针对全球结构相似性的预测置信度度量。在这项工作中,使用损失项WFAPE = 1.0,WPLDDT = 0.2和WPTM = 0.2生成设计。在最初的轨迹期间,WDIST设置为0.5,而在轨迹恢复过程中被禁用(软启动,如下所述)。
如前所述。7,基于目标折叠的二级结构初始化氨基酸序列。二级结构分配是在序列中编码的,使用丙氨酸,用于β-片的瓣膜和环状残基的甘氨酸。这引入了对正确的本地结构的偏见,可帮助设计轨迹的更快收敛。为了使生成的设计多样化,在每个设计轨迹的初始序列中随机突变了10%的氨基酸。随后,该序列通过AF2网络,该网络产生了五个结构。然后使用这些结构来计算先前定义的损耗函数。通过将误差反射到单芯片编码的输入中,从而获得了误差梯度,从而导致5×20×N误差梯度,其中n代表序列长度。然后,我们采用了五个矩阵的平均值来获得平均误差梯度(20×N),该矩阵用于梯度下降。使用具有归一化误差梯度的ADAM Optimizer63更新了20×N的位置特异性评分矩阵(PSSM)。更新后,PSSM经历了SoftMax函数,该功能将矩阵转换为每个位置的氨基酸身份的概率分布。随后使用Argmax功能来确定每个位置最可能的氨基酸身份。然后使用这些来构建下一次迭代的新输入序列。PSSM中的半胱氨酸残基被掩盖,因此设计的序列不包含任何半胱氨酸。
使用原始AF2“ model_5_ptm”的网络配置,对于所有五个具有Mutiple序列比对(MSAS)的AF2模型和模板禁用的模板。对于设计轨迹,我们使用了零回收,这意味着每个AF2网络仅执行一次。对于Claudin-1和Claudin-4设计,我们仅使用启用模板的原始AF2“ model_1_ptm”的网络配置使用模型1和2。所有设计运行均在单个NVIDIA TESLA V100(32 GB)GPU上执行。
在每个AF2序列设计轨迹中,进行了500发梯度下降优化(https://github.com/bene837/af2seq)。并非所有的设计轨迹都融合了Claudin,Rhomboid蛋白酶和GPCR。因此,我们从成功的轨迹和引入突变中抽样序列,同时禁用了远距离丢失。然后将这些序列用作新设计轨迹的起点,我们将其命名为软启动,从而导致较高的收敛速率。然后,使用AF2和三个回收,然后在琥珀色力场中进行弛豫64,65,然后使用AF2预测所有产生的序列。这导致了高质量的结构,这些结构被用作蛋白质的输入以产生序列。补充表1中总结了硅质过滤中的设计和设计的总数。对于Claudin-1和Claudin-4功能类似物的设计,我们首先使用AF2与MSAS和模板启用了AF2预测其结构,这是由于缺乏高分辨率实验结构。然后将预测用作设计和拒绝的结构模板,因为在单个序列模式下无法通过AF2预测野生型细胞外区域。将所有序列和侧链信息从模板中删除,以减少折叠偏置。我们尝试了几种功能性claudin设计的设计策略,其中两种是成功的:(1)仅重新设计跨膜表面,约占序列的40%;(2)重新设计整个跨膜区域,包括核心,约为序列的60%。固定的残留位置可以在补充表2中找到。
对于GPCR的特定构象设计,我们在与Mini-GS(PDB 5G53)结合的活动构象中使用了腺苷A2A GPCR的模板和非活动构象(PDB 3VGA)来单独设计每个状态。我们固定了与G蛋白相互作用的残基和在每个状态设计过程中的进化保守的干序,从而导致设计相同长度和相同功能位点的设计。对于主动构象的设计,我们发现不可能在没有G蛋白的情况下产生高信心设计。因此,在Mini-GS粘合剂的存在下进行梯度下降和预测。
通过X射线晶体学或冷冻EM确定的PDB中的蛋白质组件(截至2021年8月2日),对MPNNSOL模型进行了训练,其分辨率大于3.5Å,较少的残基培训。我们按照参考文献中所述进行培训。13,仅通过排除带注释的跨膜PDB代码进行修改。可在https://github.com/dauparas/proteinmpnn/tree/main/main/main/soluble_model_weights上找到排除的PDB代码和MPNNSOL模型权重的列表。
AF2SEQ产生的骨干被用作蛋白质的输入。对于香草蛋白蛋白质,我们使用了在具有0.1Å高斯噪声的数据集上训练的提供的模型权重13。对于有偏见的蛋白质MPNN(在主要文本中称为mpnnbias),我们使用了上面提到的proteinmpnn github上提供的脚本“ submit_example_8.sh”的修改版本。我们通过对极性氨基酸给出阳性采样偏置以及对丙氨酸的负采样偏置发现了最佳结果。对于MPNNSOL,我们生成了两个不同模型的序列,这些模型在训练过程中具有不同水平的噪声(0.1Å和0.2Å)。对于所有蛋白质模型,我们每个AF2SEQ设计的主链生成了两个序列。未在输入主链中添加高斯噪声,并且在解码过程中掩盖了半胱氨酸残基。
使用Biopython包装中的叠加剂对齐结构的Cα原子66。R.M.S.D.Cα计算为预测Cα原子坐标之间的平均欧几里得距离。R.M.S.D.FA是通过首先将所有原子与叠加剂对准进行计算的,然后计算原子之间的平均欧几里得距离。使用TM-Align67确定模板建模分数。
序列恢复被量化为相应残基与目标折叠中的残基匹配的位置数量除以序列中残基的总数乘以100%。核心残基被定义为残基,溶剂可访问的表面积小于20Å2,表面残基被定义为残基,少于20Å2SASA。通过蛋白质爆炸搜索2022年10月1日的NCBI REFSEQ数据库,最大命中值为1,000,获得了电子价值。
使用Rosetta3计算表面疏水性的比例。首先,使用层选择器鉴定了所有表面残基。这些被定义为SASA>40Å2的残基。在这些表面残留物中,我们计算了碱性氨基酸的数量(定义为“ gpavilmfyw”),并将其除以表面残基的总数。
使用三个回收室预测AF2的所有生成序列,并在琥珀色力场中一个松弛步骤。接下来,使用以下标准对序列进行过滤:(1)除菱形蛋白酶以外的所有设计中TM评分> 0.80(菱形蛋白酶在设计轨迹中产生的TM得分略低;因此,我们选择了一个截止值0.75);(2)除菱形蛋白酶(PLDDT> 75)以外的所有设计中,PLDDT> 80;(3)序列新颖性的电子价值阈值> 0.1。补充表1列出了成功率。
折叠相似性搜索是使用SCOP数据库17(2023年3月下载)上的FoldSeek68进行的。对于每个设计目标折叠,对TM分数对齐进行了详尽的搜索。SCOP数据库包含球形和膜域注释,用于命中分类。
通过计算彼此8次以内的所有对的二级结构之间的序列中的残基距离,然后平均所有接触的距离之间的二次结构之间的残基距离来计算相对接触顺序。为了确保所有结构中二级结构注释的一致性,我们使用DSSP来确定二级结构元素17。从头蛋白数据集包含70种螺旋蛋白,六种β-折叠蛋白和42个蛋白,含有α-螺旋和β-折叠34,69。天然蛋白质数据集由从CATH数据集(v.4.3)70中随机选择的1,000种蛋白质组成。
使用可溶性支架作为查询,通过对PDB的foldseek搜索来识别兼容的表位。TM得分高于0.7的命中率,并且使用结构可视化软件(例如Pymol或Chimerax)叠加了所需表位周围的高结构相似性。选择了表位的不同长度进行移植,仅包含相互作用位点,整个环或支持二级结构的重叠部分。然后将覆盖表位的序列粘贴到可溶性支架中感兴趣的重叠区域。使用AF2以单个序列模式预测所得的嵌合序列。手动检查具有高PLDDT(大于90)和高的TM分数的结构,以验证表位的位置。最后,选择了不同可溶性支架中的一个子集进行实验测试。
在HBS-EP+缓冲液(10 mM HEPES pH 7.4,150 mm NaCl,3 mM EDTA,0.005%,0.005%(V/V)表面活性剂P20 Cytiva)中,在HBS-EP+缓冲液中的BIACORE 8K系统(Cytiva)上进行了SPR测量。通过在10 mM NaOAC pH 4.5(250 s,10 µl min -1; 700-1500响应单元)中以10 mM NAOAC pH 4.5(250 s,10 µl min -1; 700-150 s,10 µl min -1; 700-150 s,10 µl min -1; 700-150 s,10 µg ml -1)固定在CM5传感器芯片上(Cytiva)上的抗体(5 µg mL -1)。纯化的迷你GS被固定在200 s的接触时间(固定的300个响应单元)。以30 µl min -1的流速进行结合测定。将设计的嵌合体注射为串行稀释液,范围为18 µm至0.1 nm,为120 s,然后分离400 s。将固定的抗体在10 mM甘氨酸-HCL pH 2.5(30 s,30 µl min-1)的循环之间再生。在活性状态或非活动状态中设计的GPCR在0、5、15和25 µm处注射90 s,然后解离120 s。固定的迷你GS配体在周期之间没有再生。在BIACORE 8K分析软件中,将结合曲线与1:1 Langmuir结合模型拟合。绘制了针对分析物浓度的稳态响应单元,并将Sigmoid函数拟合到Python 3.9中的实验数据以得出KD。
对于Claudins的BLI研究,使用了20 mM Tris pH 7.4、100 mM NaCl和5%甘油中的合成Claudin-His和无标记的CPE。使用八块R8系统(Fortébio/sartorius)使用5 Hz平均的5 Hz平均采集率在25°C的96孔黑色平底板(Greiner)中进行BLI,并使用Blitz Pro 1.3软件设计并设置了分析和设置测定。结合实验包括以下步骤:传感器平衡(30 s),加载(300 s),基线(180 s)以及关联和解离(每个120-300 s)。通过将1.5–3.0 µm的合成Claudin-His固定在NINTA(DIP和读取)传感器上进行实验,并量化其与0.05-5.00 µM CPE的结合。两种Claudin-1设计的关联和分离时间进行了120 s,因为它们表现出快速和关闭速率,而对于Claudin-4设计,这些时间延长至300 s,以捕获较慢的率。使用Octet Analysis Studio(Sartorius)将数据拟合到1:1结合模型,该模型从关联和解离速率常数中产生KD。在所使用的蛋白质浓度下,未检测到CPE与Ninta传感器的显着非特异性结合。
TBF_24设计使用坐式滴蒸气扩散在4°C下以0.1 m Na3柠檬酸盐pH 4.0、1 m licl和20%PEG 6000缓冲液结晶。CLF_4的设计使用坐式滴蒸气在4°C下以0.1 m Na3柠檬酸盐pH 5.0、0.1 m Na/k磷酸盐pH 5.5、0.1 m rbcl和25%V/V PEG涂片介质(BCS筛网,分子尺寸)在4°C下结晶。RPF_9的设计使用坐式滴蒸气在4°C下以0.1 M HEPES pH 7.8、0.15 m Na3柠檬酸二水合物和25%V/V PEG涂片(BCS筛选,分子尺寸)结晶。GLF_18的设计使用坐式滴蒸气扩散在4°C的Na磷酸盐pH 4.2、0.2 M Liso4和20%PEG 1000缓冲液中结晶。GLF_32设计使用坐式滴蒸气在4°C下以0.1 m Na乙酸pH 5.5、0.2 m kbr和25%PEG MME 2000缓冲液结晶。将晶体在20%的甘油中冷冻保护,并在液氮中冷却。在瑞士光源(Paul Scherrer Institute,Villigen,Switzerland)和欧洲同步辐射设施(法国Grenoble,法国)的MassIF-1梁线上收集衍射数据。使用Phaser72通过分子替换获得相。使用COOT73和PHENIX.REFINE72完成了原子模型的细化。使用Molprobity74评估了精制模型的质量。使用Pymol(Schrödinger,LLC; https://www.pymol.org/)和Chimerax75生成结构数字。数据收集和改进统计数据在扩展数据表1中列出。
如先前所述,进行了CCPE,COP-2 FAB和抗FAB纳米机构的表达和纯化76。将浓缩的CLN4_20与CCPE复合,然后在1:1.2:1摩尔多余的情况下进行COP-2。接下来,以1.3摩尔过量的COP-2添加抗FAB纳米机构,然后在冰上孵育30分钟,浓缩并使用超级螺旋体200增加10/300 GL柱(GE Healthcare),在20 mm HEPES pH 8.0中,pH 8.0,150 mm NaCl。纯化的复合物浓缩至5 mg ml -1。
Ultraaufoil 1.2/1.3网格(量化)在15 mA处发光30 s,并使用Leica GP2仪器(Leica Microsystems)玻璃化。然后,将3.5 µl的络合物应用于网格上,并在100%湿度下在4°C下将3 s印迹,然后将其倒入液态乙烷中。网格筛选和数据收集是在200 kV glacios 2冷冻-TEM(Thermofisher Scientific)上与Hauptman-Woodward医学研究所的Falcon 4i直接电子检测器一起进行的。总共收集了1,159个视频,其物理像素尺寸为0.884Å,电子剂量为49.4 E/Å2,分数为93帧。
处理视频,校正补丁运动并在冷冻PARC中估计的斑块CTF。斑点拾取生成了一个适合初始三维体积的模板;这用于生成二维投影用于模板拾取,然后进行二维分类,从头开始重建和三维细化,从而导致冷冻EM密度分辨率为4.1Å。PDB ID 7TDM76的CLN4_20,CCPE和COP-2 FAB的复合物的结构坐标被停靠。来自PDB 8U4V的纳米虫停靠在COP-2的L链上。然后将每个蛋白质链用于COOT中的真实空间。最终模型改进是用Namdinator77进行的,然后使用phenix phenix.Real_Space_refine72进行真实的改进。扩展数据表2显示了CLN-4_20/CCPE/CCPE/COP-2/NB结构的数据收集和完善统计。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。