基于赤池信息准则最小化的混合整数非线性规划
1. 引言
在统计应用中,从众多候选统计模型中为给定数据集选择最佳统计模型是一个重要问题,这一过程被称为变量选择。变量选择能够为数据集提供最简单的统计模型,在保持对给定数据集拟合度的同时提高预测性能。
赤池信息准则(AIC)是一种用于评估统计模型质量的指标。对于每个候选模型,计算其AIC值,AIC值最小的模型即为最佳统计模型。然而,在实际应用中,由于候选统计模型数量过多,基于AIC的全局最小化并不实用。因此,通常采用逐步方法(一种局部搜索算法)来寻找AIC尽可能小的统计模型,但它不一定是全局最优的。
本文提出了一种将AIC最小化问题转化为混合整数非线性规划(MINLP)问题的方法,并通过SCIP软件高效求解。同时,还提出了寻找上下界的方法和分支规则,并将其与SCIP结合。实验结果表明,该方法能为中小型基准数据集找到基于AIC的最佳统计模型,也能为大型基准数据集找到高质量的解。
2. 线性回归中赤池信息准则的初步介绍
线性回归是一种基本的统计工具,用于从给定数据集中确定方程 $y = \beta_0 + \sum_{j=1}^{p} \beta_jx_j$ 中的系数 $\beta_0, \cdots, \beta_p \in R$。其中,$x_1, \cdots, x_p$ 为解释变量,$y$ 为响应变量。实际应用中,会选择使 $\sum_{i=1}^{n} \epsilon_i^2$ 最小的系数 $\beta_0, \cdots, \beta_p$,其中 $\epsilon_i$ 是第 $i$ 个残差,定义为 $\epsilon_i = y_i - \beta_0 - \sum_{j=1}^{
超级会员免费看
订阅专栏 解锁全文

1079

被折叠的 条评论
为什么被折叠?



