行业新闻

多肽设计，为什么会成为AI制药的下一个爆点？

发布时间：2026-05-07人气：523

01丨为什么偏偏是多肽？

因为它卡在“小分子够不着、抗体进不去”的中间地带

这篇综述一上来就点出了问题本质：PPI是生命活动的核心接口，但这类界面通常面积大、表面浅、缺少小分子喜欢“钻”的深口袋，因此传统小分子药物往往很难做出既强又专一的结合。抗体虽然擅长识别这类表面，却常常受限于膜通透性，难以进入胞内。多肽则恰好处在一个很微妙的位置：它保留了足够的柔性去适配蛋白表面，又具有相对可控的特异性和亲和力，因此被视为很多“不可成药”靶点的重要突破口。文章还提到，肽类药物的发展并不是新故事——从胰岛素开始，到今天FDA已批准超过100种肽类药物，多肽早已走出实验室，只是AI让它重新进入高速发展期。

02丨AI做多肽设计，第一道坎不是模型，而是数据

文章第二部分其实非常关键：在很多人都在谈模型的时候，作者先把视角拉回到了数据。因为多肽设计和蛋白设计最大的不同之一，就是高质量结构数据更少、冗余更高、构象更难覆盖。综述统计了多类蛋白—多肽相互作用数据库，例如 ProPedia、PepBDB、CPSet、PPI-Affinity、PixelDB 等，这些数据集为训练和评测提供了基础，但问题也很明显：多数数据来自PDB，很多是短肽、重复样本，部分数据库更新不足，网站甚至已经不可用。换句话说，多肽AI不是没有模型，而是还缺一个真正成熟、统一、持续更新的数据底座。

更有意思的是，作者指出了一个值得关注的思路：把蛋白 loop 区域当成“类多肽”资源来用。因为这些区域在结构与动态行为上与多肽具有相似性，可能成为补足多肽构象空间的重要参考。此外，随着 AlphaFold Protein Structure Database 这类“虚拟结构数据库”扩展，AI也开始不再只依赖实验结构，而是可以借助高精度预测结构放大训练规模。这个判断很重要：未来多肽设计的竞争力，可能很大程度上取决于谁能更高效地整合“真实结构 + 虚拟结构 + 序列知识”。

03丨从“能不能预测结合”到“能不能直接设计”：AI路线正在快速分叉

在方法层面，这篇综述给出了一个很清晰的故事线：AI做多肽设计，大体经历了三个能力层级。

第一层是相互作用预测。也就是先回答：这个蛋白表面哪里可能结合多肽？哪些残基更关键？文章提到了一系列代表性方法，比如 PepBind、InterPep、CAMP、PepNN、MaSIF 等。这里的趋势很明显：单纯靠序列或者单纯靠结构都不够，越来越多方法开始同时整合蛋白结构、肽序列、表面几何和注意力机制，目的就是把“会不会结合、在哪结合、如何结合”这几个问题一起回答。

第二层是复合物结构预测。也就是不只是知道会结合，而是想知道“结合成什么样”。文章回顾了传统的 template-based 和 template-free docking 方法，也提到分子动力学在热力学和动力学层面的价值；但作者也直言，这些方法面对高柔性多肽时都很吃力，采样成本高、打分也不稳。于是，AlphaFold 系列、AF3、RoseTTAFold All-Atom、Chai-1、Boltz-1、OpenFold 等新一代结构模型开始进入多肽场景。作者认为，这些模型已经展示出明显潜力，尤其AF3在全原子、多组分建模上提供了新机会，但对短肽、非天然修饰肽、宏环肽的系统 benchmark 仍然不足。

第三层才是现在最热的——target-specific peptide binder design，即针对特定靶标，直接生成可结合的多肽分子。这也正是整篇综述最值得传播的一部分：AI不再只是“看图说话”，而是开始真正“下场做分子”。

04丨主战场：多肽从头设计的三条路线，已经开始正面交锋

这一部分是全文最出圈的内容。因为它不再停留在原理，而是在回答一个更直接的问题：AI到底怎么设计一个能打靶的多肽？

4.1 幻觉式设计：先乱写，再逼它“折”对

第一条路线是 hallucination-based methods。它的逻辑很像“逆向创作”：先给出随机序列，然后一边用结构预测模型判断“它会不会折成目标想要的样子”，一边通过损失函数不断迭代优化。文章把 ColabDesign、EvoBind、EvoBind2、EvoPlay 等放在这一脉络下讨论。

其中 EvoBind 通过 Foldseek 找种子结构、再用 ESM-IF1 做逆折叠设计，最后用 AlphaFold 评估复合物；EvoBind2 更进一步，几乎只需要目标蛋白序列，不依赖预先知道的结合位点、模板或肽长度。更吸引眼球的是，作者引用的结果显示：EvoBind2 设计出的环肽结合亲和力可以覆盖从微摩尔到亚纳摩尔量级，环肽和线性肽的实验成功率分别达到 75% 和 46%。这已经不是“能不能做”的问题，而是“做到什么程度”的问题了。

4.2 共设计：不再先定骨架再补序列，而是结构和序列一起长出来

第二条路线是 sequence–structure co-design。这类方法不满足于“先有结构再配序列”或“只从序列端盲猜”，而是让结构与序列在生成过程中共同演化。文章重点讲了 DiffPepBuilder、PepGLAD 和 PepFlow。

其中 DiffPepBuilder基于 SE(3)-equivariant diffusion，把蛋白语言模型嵌入、位置编码、distogram 等信息都揉进来，不仅生成多肽结构，还同时预测残基类型、旋转平移、扭转角等信息。更重要的是，它还专门加入了一个 SSBuilder 模块去设计二硫键，以提高多肽稳定性。作者总结其表现时提到，DiffPepBuilder 在 recall、界面质量和结构多样性上优于 ColabDesign 和 RFdiffusion+ProteinMPNN 组合。PepGLAD 则强调全原子几何与结合构象多样性；PepFlow 代表的是 flow-matching 路线，在几何、能量和多样性指标上表现强劲。

4.3 序列模型：没有结构也能做，而且更适合“不老实”的靶点

第三条路线是 sequence-based methods。这是这篇综述里非常有前景的一条线。作者指出，很多真正有药物价值的靶标并没有高质量共晶结构，甚至本身就高度无序、构象切换频繁，例如某些转录因子。对于这类目标，结构驱动方法天然吃亏，而蛋白语言模型（pLM）反而可能更有机会。

在这条线上，文章重点提到 ESM2、PepMLM、moPPIt、Cut&CLIP。PepMLM 通过在目标蛋白序列C端放置一个连续 mask，让模型“补出”一个可结合的多肽，报道的 hit rate 超过 38%；moPPIt 则进一步强调 motif-specific 设计，BindEvaluator 在测试集上的 AUC 超过 0.94，微调到蛋白—多肽对后可超过 0.96；Cut&CLIP 更把设计与降解结合起来，用对比学习设计既能结合靶蛋白、又能触发 E3 连接酶介导降解的多肽。换句话说，AI设计多肽的目标，已经不只是“bind”，而是开始走向“bind and act”。

上一篇：暂无数据

下一篇：为什么Fmoc氨基酸更容易消旋？

网友评论

: 管理员
该内容暂无评论

多肽设计，为什么会成为AI制药的下一个爆点？

管理员

021-61263333