文章核心总结
该研究提出ProteinNPT,一种非参数Transformer变体,专为标签稀缺场景和多任务学习设计,在蛋白质性质预测(单突变、多突变、多性质)和迭代设计任务中均实现最先进性能,核心优势在于联合建模蛋白质序列与性质标签、支持条件采样和不确定性量化。
主要创新点
- 模型架构创新:融合三轴自注意力机制(残基与标签间、同源序列间、标记实例间),无需池化操作,保留序列关键信息。
- 半监督学习范式:结合掩码语言建模(氨基酸序列去噪)和目标预测损失,缓解标签稀缺问题,同时引入辅助标签提升泛化能力。
- 多任务适配能力:天然支持多性质同时优化,可处理部分标签缺失场景,无需额外修改架构。
- 实用功能扩展:支持条件采样(按目标性质生成新序列)和不确定性量化,适配贝叶斯优化驱动的迭代蛋白质设计。
- 评估方法创新:设计三种交叉验证方案(Random、Contiguous、Modulo),精准评估模型对未见过序列位置的外推能力。
翻译部分(Markdown格式)
Abstract
蛋白质设计在优化天然蛋白质方面具有巨大潜力,在药物发现、材料设计和可持续发展领域有着广泛应用。然而,蛋白质工程的计算方法面临着巨

订阅专栏 解锁全文

285

被折叠的 条评论
为什么被折叠?



