http://www.cnblogs.com/levone/p/3531054.html#2898984
1.4 模型评估与模型选择
泛化能力(generalization ability):学习方法对未知数据的预测能力。
过拟合(over-fitting):学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好,
但对未知数据预测的很差的现像。
经验风险最小化(empirical risk minimization, ERM):即求解损失函数最小化:
当模型是条件概率分布,损失函数是对数损失函数时,ERM等价于极大似然估计(maximum likelihood estimation)。
结构风险最小化(structural risk minimization, SRM):当样本容量很小时,容易产生过拟合(overfitting)问题,SRM就是为了防止过拟合。SRM等价于正则化(regularization)。SRM就是在ERM的基础上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term):
即需要满足经验风险和模型复杂度同时小。当模型是条件概率分布,损失函数时对数损失函数,模型复杂度由模型的先验概率表示时,SRM就是贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)。
为了使测试误差最小,需要选择复杂度适当的模型。有两种常用的模型选择方法:正则化与交叉验证。
1.5 正则化与交叉验证
结构风险 = 经验风险 + 正则化
如上式所示,第一项为经验风险,第二项为正则化项
正则化:结构风险中的罚项,可以选择参数向量的L1范数,参数向量的L2范数等。
正则化的作用是选择经验风险和结构风险同时较小的模型。
正则化符合奥卡姆剃刀定律(Occam's Razor, Ockham'sRazor):能够较好的解释已知数据且较为简单的模型才是好的模型。
数据集常被切分为三个部分:训练集(training set),验证集(validation set)和测试集(test set),分别用户训练模型,模型的选择以及模型的评估。但在数据不充足的前提下,再切分数据明显是不科学的。
因此引入交叉验证的方法,交叉验证(cross validation)分为:
简单交叉验证:将数据集简单切分为训练集和测试集两部分
S折交叉验证:将数据集切分为S个大小相同的子集,选择S-1个子集训练模型,剩下的一个子集测试模型;重复S次后再选取。
留一交叉验证:用于数据缺乏的情况下。是S折交叉验证的特殊情形S=N。
1.6 泛化能力
泛化能力(generalization ability):由该方法学习到的模型对未知数据的预测能力。
泛化误差(generalization error):就是所学习到的模型的期望风险。
泛化误差上界(generalization error bound):它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
第一项是经验误差(训练误差)
第二项,N是样本数量,当N趋于无穷时,这项为0,即期望误差等于经验误差 d表示假设空间中的函数个数,越大就越难学,泛化误差就越大1.7 生成模型与判别模型
生成方法(generative approach)学到的模型称为生成模型(generative model),由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即P(Y|X)=P(X,Y)/P(X),典型的生成模型有朴素贝叶斯模型和隐马尔可夫模型。
优点:
可以得到联合概率分布
收敛速度更快 当存在隐变量时,仍可以使用判别方法(discriminative approach)学到的模型称为判别模型(discriminative model),由数据直接学习决策函数f(X)或条件概率分布P(Y|X),典型的判别模型包括:k近邻算法,感知机,决策树,逻辑斯谛回归模型,最大熵模型,支持向量机,提升方法和条件随机场等。
优点,
学习准确率比较高 便于对数据进行抽象,可以简化学习问题1.8 分类问题
输出变量是有限个离散值时,就是分类问题
学习出的分类模型或分类决策函数称为分类器(classifier)
1.9 标注(tagging)问题
分类问题的推广,输入是一个观测序列,而输出是一个标记序列
典型的应用,词性标注,输入词序列,输出是(词,词性)的标记序列1.10 回归问题
回归(regression):输入输出都是连续变量,用于预测输入变量和输出变量之间的关系,即选择输入变量到输出变量间的映射函数,等价于函数拟合,选择函数曲线拟合已知数据且很好的预测未知数据。
按照输入变量的个数,分为一元回归和二元回归;按照模型类型,分为线性回归和非线性回归。
第一章主要介绍了一些基本概念,了解这些概念还是很有必要的。