上文讲到,一般来说人们是怎么对无输入的事件建模,做出预测和评估,本文则泛化到如何给标记数据建模,预测和评估。以下遵循上一篇文章的逻辑结构,先阐述我们在理想状态,即知道模型原分布参数的条件下下如何作出最优预测以及评估,然后扩展到现实情况,即未知参数情况下的分析。
统计模型之理想状态
垃圾邮件分类就是一个具备标记数据的预测问题例子,给定一个邮件x,我们做出判断这是(y=1)或者不是(y=0)一个垃圾邮件。那能否正式地阐述下问题呢?一般来说,如果我们能够清晰地定义一个问题,那么这个问题的99%就已经被解决了。以下我们逐步解释一些概念和定义。
- 首先是标记数据$(x, y) \in \mathcal{X}\times\{0, 1\}$
- 其中,$\mathcal{X}$ 是输入(特征)空间,{0, 1}是输出(标记)空间
- 注意x并不一定得是输入空间本身(比如所有邮件组成的空间),而可以是我们对输入的一些衡量的空间,即我们提取出来的特征。
- 我们只能看到x,然后就必须做出对y的预测。
- 如果我们将其建模称一个统计模型,那么(X, Y)就是随机的,同时
- X 具有一些边缘概率分布。
- 给定一个$X=x$,$y$的条件概率分布为头概率是$\eta(x)$的伯努利分布。
- 这里的$\eta: \mathcal{X} \rightarrow [0, 1]$就是一个函数,有时被人们称为回归函数。
贝叶斯分类器
最优分类器
贝叶斯分类器简单来说就是一个函数,输入x,输出预测的标记y,
这里,星号*代表这是最优的分类器,$\eta(x)$就是回归方程。一般来说,这个分类器可以将预测出错的概率最小化,但这其实取决于回归函数$\eta$,矛盾的是,通常我们并不知道它。
最优错误率
我们知道,当预测标记和实际标记不一致的时候,预测出错,容易知道,错误率其实就等于这个事件的概率,下面我们推导这个概率的具体值是啥:
注意到这里的最优错误率与上一篇文章的区别是,上一篇文章中,所有输出 $Y$ 都是独立同分布的,而这里讨论的是给定某个 $X=x$,$Y$ 的条件分布,所以最后要对 $X$ 进行积分操作。
条件期望 (Conditional Expectation)
- 考虑任意随机变量A和B,
- 给定B,我们将A的条件期望写作E[A|B],注意到因为这个数依赖于B,所以它本身也是一个随机变量!
- 计算它的期望为:$E_B[E_A[A|B]] = E[A]$
统计模型之现实情况
同上一篇文章一样,现实情况下我们无从得知回归函数 $\eta$,能看到的只是一些原分布产生的数据,通常来讲我们会分成两部分:
- 训练数据: $(X_1, Y_1), \ldots, (X_n, Y_n)$
- 测试数据: $(X’_1, Y’_1), \ldots, (X’_m, Y’_m)$
注意到它们都是iid的随机变量,与上篇文章不同的是,测试数据不止一个而是有m个,这是为了测出它的真正的错误率,区分于之前 Y 只是服从一个分布。
我们的任务就是使用训练数据训练出一个回归方程 $\hat \eta$, 然后参考前文给出分类器
测试错误率
如何计算错误率呢?因为训练数据和测试样例都是iid的,并且我们的分类器$\hat f$只依赖于训练数据,所以它和测试数据是互相独立的。也就是说,给定 $((X_i, Y_i))_{i=1}^n$和 $ \hat f$,我们可以给出条件分布:
容易看出,这是一个有m个试验,且头概率为 $\hat f$的错误率(假定为 $\epsilon$)的二项分布 (Binomial Distribution),记作 E ~ Binom(m, $\epsilon$)。
其它评估方式
随着人们想预测的事件逐渐变多,测试错误率这单一数值已远远不能满足人们对一个分类器评价指标需求。比方说,对于预测病人是否得某种病的时候,误诊率就显得尤为重要了。因此,衍生出了一系列新的概念和指标去衡量一个上述的分类器,比方说混淆矩阵,P-R曲线,ROC等等,这部分在此不再扩展,可参考这里。