ESL-CN项目解读：当特征不可用时的分类方法-CSDN博客

ESL-CN项目解读：当特征不可用时的分类方法

在传统机器学习任务中，我们通常假设数据以特征向量的形式存在。然而在实际应用中，很多研究对象难以直接定义为特征向量，或者特征向量维度极高难以直接处理。本文将探讨当特征不可用或难以直接处理时的分类方法，重点介绍基于相似性矩阵（proximity matrix）的技术路线。

相似性矩阵（proximity matrix）是一个N×N的矩阵，其中每个元素表示两个样本之间的相似程度。当原始特征不可用时，我们可以：

这种方法的核心在于绕过特征提取步骤，直接在样本相似性层面进行操作。

在计算生物学中，蛋白质分类是一个典型的需要处理非结构化数据的任务。蛋白质分子可以表示为氨基酸序列，例如：

长度110的序列：MLTEAEK...QLLR
长度153的序列：MPRLFSY...VQKLK

我们可以定义字符串核(string kernel)来衡量两个蛋白质序列的相似性：

实际操作中，直接计算高维特征向量(当m=3时维度为20³=8000)效率低下。通过树结构等优化方法，可以直接高效计算核矩阵而无需显式计算特征向量。

在一个包含1708个蛋白质(1663阴性/45阳性)的数据集上：

除了SVM，许多分类器都可以仅依赖内积矩阵实现：

通过公式将内积转换为距离： ‖xᵢ - xⱼ‖² = ⟨xᵢ,xᵢ⟩ + ⟨xⱼ,xⱼ⟩ - 2⟨xᵢ,xⱼ⟩

计算测试点到各类重心的距离： ‖x₀ - x̄ₖ‖² = ⟨x₀,x₀⟩ - (2/Nₖ)∑⟨x₀,xᵢ⟩ + (1/Nₖ²)∑∑⟨xᵢ,xⱼ⟩

通过内积矩阵的特征分解实现：

当只有成对距离时，可以转换为内积矩阵：

虽然基于核的方法很强大，但也有明显限制：

收集48篇来自三位统计学家(BE, HT, JF)的论文摘要：

当特征不可直接获取时，基于相似性矩阵的方法提供了可行的解决方案。蛋白质分类案例展示了如何从序列数据构建有效的核函数。然而，这类方法在特征选择和解释性方面存在固有局限。

在实际应用中需要权衡：

理解这些方法的原理和限制，有助于在实际问题中选择合适的解决方案。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考