符号数据分析与回归模型详解
1. 符号数据分析
1.1 心血管疾病数据的经典回归分析
为了将符号分析结果与经典方法进行比较,我们使用R软件对原始心血管疾病数据进行逻辑回归。对于分类数据进行回归时,需要将分类数据转换为多个二元变量。例如,变量“gluc”有三个值,分别是1(正常)、2(高于正常)和3(远高于正常),因此将“gluc”转换为两个虚拟变量:“gluc normal”(1, 0)和“gluc above normal”(1, 0),由于这两个虚拟变量可以反映第三个模态,所以无需为其创建新变量。相关数据如图10.26所示,R程序的结果如图10.27所示,识别出了几个重要变量,如性别、收缩压(ap_hi)、胆固醇和血糖(gluc),与符号回归相比,识别出更多显著变量。
1.2 不同聚合方法的影响
符号回归与经典回归结果的差异可能是由聚合过程中的信息损失导致的。为验证不同聚合方法会导致不同结果的假设,我们尝试按身高对数据进行聚合,然后进行回归分析。结果(图10.28)表明,舒张压和活动水平是心血管疾病的重要因素。与按年龄聚合的回归结果相比,此结果强调了心血管疾病的不同因素。综合两个结果,我们可以更全面地了解到,葡萄糖、舒张压和活动水平与心血管疾病密切相关。这也提醒我们,不同的聚合方式可能会在符号数据中导致不同的结果,为了全面理解数据,最好通过不同的聚合选择来分析数据。
2. 回归模型基础
2.1 回归模型概述
回归模型是现代机器学习的基石之一,它在100多年前作为一种统计方法被引入,用于发现响应变量与多个解释变量(也称为预测变量)之间关系的存在和程度。尽管其原理简单,但回归模型非常有
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



