1、证明离散直方图规则的期望分类误差由下式给出:E[εn] = c1 + ∑(j = 1 到 b) (c0pj − c1qj) ∑(k,l = 0 到 n, k < l, k + l ≤ n) (n! / (k!l!(n − k − l)!)) (c0pj)^k (c1qj)^l (1−c0pj − c1qj)^(n−k−l) 提示:首先证明 E[εn] = ∑(j = 1 到 b) [c0pj P(Vj > Uj) + c1qj P(Uj ≥ Vj)] 。
可根据提示,先证明
$$ E[\varepsilon_n] = \sum_{j=1}^{b} \left[ c_0 p_j \, P(V_j > U_j) + c_1 q_j \, P(U_j \geq V_j) \right] $$
再进一步推导得出
$$
E[\varepsilon_n] = c_1 + \sum_{j=1}^{b} (c_0 p_j - c_1 q_j) \sum_{\substack{k,l=0 \ k < l \ k + l \leq n}}^{n} \frac{n!}{k! \, l! \, (n - k - l)!} (c_0 p_j)^k (c_1 q_j)^l (1 - c_0 p_j - c_1 q_j)^{n - k - l}
$$
2、证明对于每个分类规则Ψn,存在另一个分类规则Ψ′n,其分类误差为ε′n,以及一个特征 - 标签分布PX,Y(其中ε∗ = 0),使得对于所有的n,都有E[ε′n] < E[εn]。提示:找到一个特征 - 标签分布PX,Y,使得X集中在Rd上的有限个点上,并且Y是X的确定性函数。
- 可依据提示,尝试寻找满足条件的特征 - 标签分布 $ P_{X,Y} $,即 $ X $ 集中在 $ \mathbb{R}^d $ 上有限个点且 $ Y $ 是 $ X $ 的确定性函数,进而证明存在分类规则 $ \Psi’_n $ 满足 $ \mathbb{E}[\varepsilon’_n] < \mathbb{E}[\varepsilon_n] $。



被折叠的 条评论
为什么被折叠?



