CLEAN（Enzyme function prediction using contrastive learning2023）

原创已于 2025-12-24 16:46:19 修改 · 711 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#大数据 #人工智能

于 2025-11-05 16:59:21 首次发布

摘要

酶功能注释是一个基础性挑战，已经开发了众多的计算工具。然而，大多数这些工具无法准确预测研究较少的蛋白质或先前功能未表征或具有多重活性的蛋白质的功能注释，例如酶学委员会（EC）编号。我们提出了一种名为 GLEAN（基于对比学习的酶注释）的机器学习算法，与最先进的工具 BLASTp 相比，能够以更好的准确性、可靠性和灵敏度将 EC 编号分配给酶。对比学习框架使 GLEAN 能够自信地（i）注释未被描述的酶，（ii）纠正错误标记的酶，以及（iii）识别具有两个或更多 EC 编号的混杂酶——我们通过系统的计算机模拟和体外实验证明了这些功能。我们预计该工具将广泛用于预测未表征酶的功能，从而推动基因组学、合成生物学和生物催化等许多领域的发展。

DNA测序技术，特别是基因组学和宏基因组学工具的发展，导致了从生命各个分支的生物体中发现了大量的蛋白质序列。例如，UniProt 知识库已收录了约 1.9 亿个蛋白质序列。然而，这些蛋白质中只有约 0.3%（约 50 万）经过人工审核员审查，其中约 19.4% 有明确的实验证据支持（1）。因此，蛋白质功能注释高度依赖于计算注释方法。然而，基于社区的大规模蛋白质功能注释关键评估（CAFA）研究发现，使用现有计算工具自动注释的酶中约有 40% 被错误注释（2）。因此，蛋白质的功能注释仍然是蛋白质科学中的一个巨大挑战。特别是，对研究不足和混杂蛋白质的注释不平等阻碍了生物医学进展和药物发现（3, 4）。

酶学委员会（EC）编号是最著名的酶数值分类方案，它通过四位数字指定酶的催化功能。由于对目标酶功能的实验表征通常费力且昂贵，因此已经开发了许多用于酶功能注释的计算工具（1, 5, 6）。它们包括但不限于基于序列相似性（7-9）、基于同源性（10, 11）、基于结构（12, 13）和基于机器学习（ML）（14, 15）的方法。其中，基于序列相似性的蛋白质基本局部比对搜索工具（BLASTp）是使用最广泛的工具（7）。然而，BLASTp 和其他比对工具仅基于序列相似性进行功能注释，当序列相似性较低时，预测结果可靠性较差。另一方面，几乎所有现有的 ML 模型，如 DeepEC（5）和 ProteInfer（15），都基于多标签分类框架，并受到生物学中常见的有限且不平衡的训练数据集的困扰。因此，需要一个具有更好准确性和 EC 覆盖范围的强大工具来释放当前未表征蛋白质的潜力并理解蛋白质功能的范围。

在这项工作中，我们报告了一个名为 CLEAN（基于对比学习的酶注释）的 ML 模型，用于酶功能预测。CLEAN 在 UniProt 的高质量数据上训练，以氨基酸序列作为输入，并输出按可能性排序的酶功能列表（以 EC 编号为例）。为了验证 CLEAN 的准确性和鲁棒性，我们进行了广泛的计算机模拟实验。此外，我们挑战 CLEAN 为一个内部收集的所有未表征卤化酶（共 361 个）数据库注释 EC 编号，随后进行案例研究作为体外实验验证。CLEAN 在这些任务上优于其他 EC 编号注释工具，包括 BLASTp 和最先进的 ML 模型。

模型开发与评估

与先前将 EC 编号预测任务构建为多标签分类问题的 ML 算法不同，CLEAN 使用了对比学习（16, 17）框架。我们的训练目标是学习一个酶的嵌入空间，其中欧几里得距离反映了功能的相似性。嵌入指的是蛋白质序列的数值表示（向量或矩阵），机器可读，同时仍保留酶所携带的重要特征和信息。在 CLEAN 的任务中，具有相同 EC 编号的氨基酸序列具有较小的欧几里得距离，而具有不同 EC 编号的序列则具有较大的距离。对比损失用于在监督下训练模型（18, 19）。在训练过程（14, 15）中，训练数据集中的每个参考序列（锚点）都与一个具有相同 EC 编号的序列（正例）和一个具有不同 EC 编号的序列（负例）一起采样。为了通过向模型提供具有挑战性的负样本来提高训练效率——而不是随机抽取——优先选择那些嵌入与锚点具有较小欧几里得距离的负序列。

在训练阶段，从语言模型 ESM-1b（20）获得的蛋白质表示被用作前馈神经网络的输入，其输出层产生输入蛋白质的精细的、功能感知的嵌入。学习目标是一个对比损失函数，它最小化锚点与正例之间的距离，同时最大化锚点与负例之间的距离。在进行预测时，通过平均训练集中属于该 EC 编号的所有序列的学习嵌入来获得 EC 编号聚类中心的表示（14, 15）。随后，计算查询序列与所有 EC 编号聚类中心之间的成对距离。与查询序列显著接近的簇的 EC 编号被预测为输入蛋白质的 EC 编号（补充文本，第 1 节）。

用于模型开发和评估的数据库是通用蛋白质知识库 UniProt（1）。开发了两种 EC 选择方法，从输出排名中预测可靠的 EC 编号（图 1C）：（i）一种贪婪方法，选择在到查询序列的成对距离方面与其他 EC 编号具有最大分离度（脱颖而出）的 EC 编号；（ii）一种基于 P 值的方法，识别与背景相比具有统计学显著性的 EC 编号（见材料与方法）。在一个训练-测试分割中（测试集中的任何酶与训练集中的任何酶共享 ≤ 50% 的序列同一性），使用最大分离选择方法，CLEAN 达到了 0.865 的 F1 分数——这是一个常用的准确度指标，表示精确度和召回率的调和平均值。即使在 10% 序列同一性聚类下，CLEAN 也达到了 0.67 的 F1 分数。此外，与使用 ESM-1b 但不进行对比学习的基线方法相比，CLEAN 实现了更高的性能（图 S1）。

**图 1. CLEAN 基于对比学习的框架。**
**(A)** 在训练期间，根据 EC 编号对正例和负例进行采样。输入序列被嵌入并通过神经网络。暖色调的方块系列代表由 ESM-1b 嵌入的输入序列的表示。类似地，由监督对比学习神经网络获得的序列嵌入用冷色调表示。
**(B)** 一个 EC 编号的表示是通过平均该 EC 编号下酶的表示获得的。当预测 EC 编号时，将查询序列嵌入与每个 EC 编号的表示（显示为冷色调的平行四边形）进行比较，以获得查询序列与每个 EC 编号之间的成对欧几里得距离。该距离反映了 EC 编号与查询序列之间的相似性。
**(C)** 当用作分类模型时，实施了两种方法，最大分离法（上图）和 P 值法（下图），以从排序中优先选择可靠的 EC 编号预测。

图 2. CLEAN 与最先进的 EC 编号预测工具的定量比较。

(A) 在 New-392 数据库上评估 CLEAN 在三个多标签准确度指标（精确度、召回率和 F1 分数）上的表现。使用了四个排名靠前的模型 ProteInfer、DeepEC、CatFam 和 ECPred 进行比较。

(B) 在 Price-149 数据库上比较 CLEAN、BLASTp、ProteInfer、DeepEC、DEEPre、CatFam 和 ECPred 的表现。

(C) 在一个代表性不足的 EC 编号数据集上比较 CLEAN、ProteInfer 和 DeepEC 的表现。

(D) 使用与训练集同一性 <50% 的测试集，并以 SupconH 损失函数评估的 CLEAN 准确度分箱图。精确度和召回率值根据 EC 编号在训练集中出现的次数进行分箱——即箱 (0,5] 表示该 EC 编号在训练集中出现次数少于五次。箱形图显示了五折交叉验证的结果。

(E) 在合并的 Price-149 和 New-392 数据集上，根据 EC 编号在 CLEAN 训练数据集中出现的次数进行分箱评估。

(F) CLEAN 在一个内部整理的卤化酶数据集上的预测准确度，与六种常用工具（BLASTp、ProteInfer、DeepEC、DEEPre、ECPred 和 COFACTOR）进行比较。该数据集具有良好的多样性，覆盖 11 种不同的 EC 编号。

**与先前 EC 编号注释工具的基准测试**

训练后，通过将 CLEAN 与六种最先进的 EC 编号注释工具（即 **ProteInfer** (15), **DeepEC** (5), **BLASTp**, **DEEPre** (18), **CatFam** (19), 和 **ECPred** (20)）进行比较，系统地研究了 CLEAN 的预测性能。使用了两个未包含在任何模型开发中的独立数据集，以进行公平和严格的基准研究。第一个数据集 New-392 包含 392 个酶序列，覆盖 777 个不同的 EC 编号，包含在 CLEAN 训练后（2022 年 4 月）发布的 Swiss-Prot 数据。该预测场景代表了一种实际情况，即标记的知识库是 Swiss-Prot 数据库，而查询序列的功能是未知的。总体而言，与 Proteinfer 和 DeepEC 相比，CLEAN 在各种多标签准确度指标上取得了最高值，包括精确度（0.597）和召回率（0.481）（图 2A）。同时，CLEAN 的 F1 分数为 0.499，而 Proteinfer 和 DeepEC 的分数分别为 0.309 和 0.239。

第二个独立数据集，称为 Price-149，是 Price 等人（21）描述的一组经过实验验证的结果。Price-149 数据集最初由 Proteinfer（15）整理为一个具有挑战性的数据集，因为通过自动注释方法，现有序列被确定在像京都基因与基因组百科全书（KEGG）这样的数据库中被错误或不一致地标记。同样，与 BLASTp、Proteinfer 和 DeepEC 相比，CLEAN 取得了最高的 F1 分数（0.495）（图 2B）。值得注意的是，在这个具有挑战性的任务中，CLEAN 的 F1 分数比 Proteinfer（0.165）高 3.0 倍，比 DeepEC（0.085）高近 5.8 倍。在 New-392 和 Price-149 数据集上的评估表明，对于新发现蛋白质，尤其是那些没有已知酶功能的蛋白质的功能预测，CLEAN 比先前开发的基于 ML 的模型更精确、更可靠。

**理解 CLEAN 在注释研究不足的 EC 编号上的性能**

接下来，我们研究了为什么 CLEAN 在研究不足的 EC 编号上比其他 ML 模型表现更好。我们整理了一个包含来自稀有 EC 编号的酶的验证数据集，以检验我们的假设：与多标签分类框架相比，对比学习能更好地处理 EC 编号的不平衡性，即一些 EC 编号有数千个酶例子，而一些只有很少（少于五个）。在这个验证数据集中，每种类型的 EC 编号出现次数不超过五次，并且该数据集包含超过 3000 个样本，覆盖超过 1000 个不同的 EC 编号。请注意，Proteinfer 和 DeepEC 是使用其发布的预训练模型进行评估的，因此我们整理的验证集出现在两个模型的训练过程中。换句话说，Proteinfer 和 DeepEC 都具有优势，因为两个模型在训练期间都见过图 2C 中使用的验证数据集，从而产生了可接受的 0.625 到 0.782 H 分数。尽管有这一额外优势，CLEAN 的表现仍优于这两种方法，达到了 0.817 的 H 分数（图 2C）。

我们根据 EC 编号在训练集中出现的次数分析了 CLEAN 的性能。即使在 50% 序列同一性聚类（测试集和训练集相似度低）的情况下，当训练样本数量稀少时，CLEAN 的性能也没有显著下降（图 2D）。根据所得到的结果，我们合并并重新审视了两个独立数据集（New-392 和 Price-149）。如图 2E 所示，根据 EC 编号在训练集中出现的次数，按频率研究了准确度性能。正如预期的那样，Proteinfer 和 DeepEC 显示出对常见 EC 编号的偏向，受限于分类框架。相比之下，CLEAN 在预测研究不足的功能方面表现出最大的优越性，并且无论 EC 出现频率如何，都保持了高准确度。有偏差数据集对分类模型带来的挑战是缺乏研究不足 EC 编号的正例。因此，分类模型很难从有限的正例中学习。为了进一步分析 CLEAN 可以通过对比学习不仅利用正例还能利用负例的假设，我们实施了 Supcon-Hard 损失（SupconH）——一种比三元组损失采样更多负例的损失函数（材料与方法；补充文本，第 2 节；和图 S3B）。

此外，我们实施了一种量化预测结果置信度的方法。我们在酶序列嵌入与 EC 编号嵌入之间的欧几里得距离分布上拟合了一个双组分高斯混合模型（GMM）（材料与方法）。知道了预测置信度，研究人员可以对 CLEAN 的预测进行定量解释。

置信度量化也可以通过报告第三级 EC 编号（当置信度低时）来帮助 CLEAN 避免过度预测（图 S1 到 S4 和补充文本，第 3 节）。

#### 实验验证

接下来，我们试图以卤化酶作为概念验证研究，验证 CLEAN 在分配 EC 编号方面的预测准确性。卤化酶因其受控的碳氢功能化（23, 24, 25）而越来越多地用于生物催化。通常，由卤化酶产生的带有卤素原子的小分子具有良好的生物活性和物理化学性质，因此在制药和农用化学品领域具有广泛的应用（24, 26, 27）。迄今为止，已从 UniProt 中鉴定出 85 个未完全注释的卤化酶，涵盖了所有四种类型的卤化酶[卤过氧化物酶、黄素依赖型、α-酮戊二酸（α-KG）依赖型和 S-腺苷-L-甲氨酸（SAM）依赖型]（图 3A 和表 S2）。这些卤化酶在 UniProt 中被标记为未表征和/或假设蛋白质，或者在文献中存在冲突的注释。卤化酶数据集尤其具有挑战性，因为卤化酶家族研究不足，并且数据库中可用的卤化酶数量有限。通过后续更好的整理和实验验证，所有 36 个卤化酶都被可靠地注释了 EC 编号。总体而言，与其他六种常用计算工具相比（例如，DeepEC 的 ~11.1% 和 Proteinfer 的 11.1 到 61.1%），CLEAN 实现了更好的预测准确度（86.7% 到 100%）（图 2F 和图 3A）。后一个范围对应于不同位数 EC 编号（从第 1 位到第 4 位）的预测准确度。这些结果表明，CLEAN 即使在相似的生物催化反应范围内也能区分酶的功能。

在这 36 个卤化酶中，有三个酶名为 MJ051、TTHA0338 和 SsHA，根据文献（28-30）与 UniProt 中的描述比较，功能存在冲突。CLEAN 在这三种情况下预测了新的 EC 编号，表明可能存在其他潜在功能。因此，我们进行了体外实验来验证这些预测。高效液相色谱-质谱（HPLC-MS）分析结合酶动力学分析证实，正如 CLEAN 所预测的，MJ1651 是 SAM 水解酶（EC 3.1.3.8），而不是像 UniProt 和本工作中使用的选定计算工具所错误标记的那样是氯化酶（EC 2.5.1.94）或氟化酶（EC 2.5.1.63）（图 3, C, D, F, G, M; 图 S3; 图 S4, A, B; 图 S5A; 图 S7; 和表 S3）。CLEAN 还正确地注释了 TTHA0338（属于 DUF62 Pfam 家族，功能未知）为 SAM 水解酶（图 3, C, D, H, N; 图 S5B 和 S7; 和表 S3）。除了 BLASTp 成功预测了目标 TTHA0338 外，所有其他六种常用计算工具都未能预测 MJ1641 和 TTHA0338。这些结果表明，CLEAN 有利于纠正错误标记的酶并准确识别研究不足的催化功能。CLEAN 还自信地识别了具有三个 EC 编号（EC 2.5.1.63, EC 2.5.1.34, 和 EC 3.1.3.8）的混杂酶 SsHA（图 3, B, I-K, O-Q）。这些观察结果证实，CLEAN 可以有效地回忆已定义的生物活性并捕捉酶混杂性的要素。CLEAN 在区分具有同源结构（图 S5C）和序列同一性范围在 20.5% 到 35.7% 之间的 SAM 结合蛋白方面（除了 SsHA 与 ScHA 的序列同一性为 87.6% 之外）的精确度令人印象深刻（图 3B 和图 S6）。在这个范围内序列同一性的蛋白质功能通常难以预测。这些结果表明，我们基于序列的模型 CLEAN 在处理结构相似但功能不同的酶方面，比基于结构的方法（例如 COFACTOR (22, 23)）表现更好。

**图 3. CLEAN 对未表征卤化酶的实验验证。**
**(A)** 显示了 36 个已鉴定卤化酶的 EC 数值 ID 的准确度热图。
**(B)** 未表征蛋白质与阳性对照（PC）酶之间的序列同一性热图。带有 "viridis" 颜色标度的颜色条表示百分比。
**(C)** SAM 水解腺苷转移酶 MjEG1-TTHA0338 反应。
**(D)** 未表征蛋白质 MjEG1 [蛋白质数据库（PDB）ID: 2YNI (28)]、TTHA0338 [PDB ID: 2XW5 (29)] 和阳性对照酶 PH0468 [PDB ID: 1HR6 (30)] 的三维（3D）结构叠加。对 SsPA [PDB ID: 5O8B (31)]、SdA [PDB ID: 2Q9O (32)] 和 ScFA [PDB ID: 1RQR (33)] 进行了相同的结构叠加。叠加显示这些 SAM 结合酶的 3D 结构非常相似；然而，CLEAN 能够准确区分它们的功能。每个环状结构中的 Chem A 用于结构叠加。
**(E)** SAM 与卤化物离子或 H2O 对 SsPA 的亲核取代。
**(F 到 K)** 含有 SAM 和 NaCl/NaBr (F) 与空白 (F)、纯化的 MjEG1 (G)、纯化的 TTHA0338 (H) 和纯化的 SsPA (I) 的反应混合物的 HPLC 分析。(J) 和 (K) 是 (I) 的放大视图。底物 SAM (1)、产物腺苷 (2)、5'-氟-5'-脱氧腺苷 (5'-FDA) (3) 和 5'-氯-5'-脱氧腺苷 (5'-CDA) (4) 的峰分别用浅黄色、橙色、绿色和深绿色标记，并在相同的保留时间对齐。UV，紫外；mAU，毫吸光度单位。
**(L 到 Q)** 从反应混合物中获得的化合物的质谱：黑色反应系统中的底物 (1) (L)、MjEG1 催化反应中的腺苷 (2) (M)、TTHA0338 催化反应中的腺苷 (2) (N)、5'-FDA (3) (O)、5'-CDA (4) (P) 和腺苷 (2) (Q)。m/z，质荷比。

**讨论**

通过系统的计算机模拟和体外实验验证，我们已经证明 CLEAN 相对于六种最先进的工具（即 ProteInfer、BLASTp、DeepEC、DEEPre、COFACTOR 和 ECPred）实现了卓越的预测性能。对未表征卤化酶数据集的全面分析表明，CLEAN 可以表征假设蛋白质并纠正错误标记的蛋白质，而大多数基于序列、结构和 ML 的注释工具预测错误或无法产生预测。识别酶混杂性对于提高现有酶的性能（3, 37）至关重要，CLEAN 可以有效地实现这一点（例如，具有三种功能的 SsHA）。与分类模型不同，对比学习更适合通常存在不平衡、有偏差和稀缺的生物学数据。

我们相信 CLEAN 将成为预测查询酶催化功能的有力工具，可以极大地促进功能基因组学（32）、酶学、酶工程（33）、合成生物学（34）、代谢工程（35, 36）和逆生物合成（37, 38）的研究。此外，CLEAN 所使用的通用语言模型表示加上对比学习工作流，可以很容易地适应其他不限于酶特性的预测任务，例如功能目录（FunCat）和基因本体（GO）。我们框架的用户友好特性允许 CLEAN 以高通量方式作为独立工具使用，并作为软件组件集成到其他计算平台中。CLEAN 在预测研究不足蛋白质方面的卓越性能应能大大扩展生物信息学工具箱，从而为未来详细的机理研究奠定基石。