Create 1.统计学习方法概论.md

5 years ago · c3643829cc
parent dea6273328
commit c3643829cc
1 changed files with 245 additions and 0 deletions
--- a/机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md
+++ b/机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md
@ -0,0 +1,245 @@
 # 统计学习方法概论
 ### 知识树
 ![1617682217280](assets/1617682217280.png)
 > 苹果表示比较重要的
 ### 监督学习
 Supervised learning
 #### 监督学习的实现步骤：
 1. 得到一个有限的训练数据集合
 2. 确定模型的假设空间，也就是所有的备选模型
 3. 确定模型选择的准则，即学习策略
 4. 实现求解最优模型的算法
 5. 通过学习方法选择最优模型
 6. 利用学习的最优模型对新数据进行预测或分析
 ![1617682530100](assets/1617682530100.png)
 > 告诉它哪些东西是好的，哪些东西是坏的，它依据这些来学习
 比如下面的例子：
 ![1617682680722](assets/1617682680722.png)
 > 根据是否招女孩子喜欢的一些特征，来推导其它未知的数据是否招女孩子喜欢，而无监督学习是没有是否招女孩子喜欢这个标签，可能会采取一些聚类的方法，比如把身高聚的时候，高的一堆，矮的一堆，成绩高的一堆低的一堆，以得到类似的结果。
 按照常理来讲有监督学习肯定比无监督学习好，但现实生活中，有监督学习需要标注，也就是要大量的人力成本，而无监督数据的获取往往是最低成本的。
 ### 统计学习三要素
 Element of statistical learning
 #### 模型（假设空间）
 > 假设所有的点都在空间中，每个点是一个模型或者函数
 决策函数：![1617683176867](assets/1617683176867.png)
 > f(x)：把所有的函数假设为f(x)
 >
 > θ：f(x)里头的参数，用来确定模型
 条件概率分布：![1617683208582](assets/1617683208582.png)
 策略：
 > 怎么确定θ的参数，让模型知道是否预测错了，错的偏差有多大
 0-1损失函数
 ![1617683506221](assets/1617683506221.png)
 > 预测相同为0，否则为1，得继续努力，但这样有个很明显的缺陷，就是它只知道错了，但是不知道错在哪里
 平方损失函数
 ![1617683522014](assets/1617683522014.png)
 > 弥补上面的缺陷，告诉它差距有多大，相等则不需要
 绝对损失函数
 ![1617683540364](assets/1617683540364.png)
 > 防止小于0的情况，即Y-f(x)小于0，相当于非常非常好，这显然是不对的，所以加入绝对值，要么大于0，要么小于0
 对数损失函数
 ![1617683559768](assets/1617683559768.png)
 > 让为0的概率越来越大，让为1的概率越来越小
 经验风险最小化：
 ![1617691844212](assets/1617691844212.png)
 > 对每个样本跑一遍，将所有的loss平均计算，loss越大表示离真实的越大，loss越小说明里真实越接近，模型也越好
 结构风险最小化：
 ![1617691949906](assets/1617691949906.png)
 > 加入正则项，防止过拟合，也就是模型过于复杂，过于只适合当前数据，导致预测其它数据的时候很差（泛化能力）。
 算法：挑选一个合适的算法，使得可以求解最优模型
 ### 模型评估与选择
 Model evaluation and model selection
 训练误差：
 ![1617692106744](assets/1617692106744.png)
 > 对所有训练数据的结果做一个平均，误差越大模型可能越大。但如果以训练集来评估，就想考试一样，如果考试题目平时已经见过，当然能做出来，要解决的是平均没见过的类似题目。
 测试误差：
 ![1617692141368](assets/1617692141368.png)
 > 利用测试集去测试模型的训练情况。
 验证集：我们通常来讲，会挑选测试集表现最好的，但是也有总可能就是测试集刚好和训练集的“题目”类似，那它当然能表现的好，这时候就需要引入验证集。我们一般选择验证集表现最好的模型。
 多项式拟合问题：
 ![1617692653540](assets/1617692653540.png)
 > 左上欠拟合严重，右上欠拟合，左下拟合正常，右下过拟合。实际中怎么判断过拟合，即训练集上误差非常低，但是在其它数据集上的误差非常高，一般就是过拟合。
 ### 正则化与交叉验证
 Regularization and cross validation
 防止过拟合
 最小化结构风险：
 ![1617692872918](assets/1617692872918.png)
 交叉验证：
 数据集随机划分为以下3部分：
 - 训练集：模型的训练
 - 测试集：模型的选择
 - 验证集：模型的评估
 ![1617692942593](assets/1617692942593.png)
 ### 泛化能力
 Generalization ability
 定理1.1泛化误差上界
 对于二分类问题，当假设空间是有限个函数的集合F = {f1,f2,...,fd}时，对任意一个函数f ∈ F，至少以概率1 - δ，以下不等式成立：![1617693142642](assets/1617693142642.png)
 其中，
 ![1617693201106](assets/1617693201106.png)
 > 即以某种依据来确定模型是否具备泛化能力。但现实生活中这个是非常难实现的，问题在于有限个，而这个有限，在我们实际操作中是不可能知道是有限个的。
 ### 生成模型与判别模型
 Generative model and discriminant model
 生成方法：![1617695077923](assets/1617695077923.png)
 > P(Y|X)：表示PX条件下，Y的概率
 判别方法：![1617695090214](assets/1617695090214.png)
 例子：如何知道女孩子的姓名呢？
 生成方法：我要是把她爸妈建模出来，直接问她爸妈不就行了吗？
 判别方法：她叫小红的概率是多少？她叫小刘的概率是多少？
 ### 分类问题
 Classification
 TP——将正类预测为正类数；
 FN——将正类预测为负类数；
 FP——将负类预测为正类数；
 TN——将负类预测为负类数；
 精确率：预测为正类的样本中有多少分对了；
 ![1617695936634](assets/1617695936634.png)
 召回率：在实际正类中，有多少正类被模型发现了
 ![1617695964734](assets/1617695964734.png)
 F1值：
 ![1617695979979](assets/1617695979979.png)
 ![1617695988131](assets/1617695988131.png)
 一般会配合一个混淆矩阵：
 ![1617696087388](assets/1617696087388.png)
 ### 标注问题
 Tagging
 输入：
 x = (x1, x2, ..., xn) T
 y = (y1, y2, ..., yn) T
 ### 回归问题
 Regression
 输出一个连续的值，不是0/1这种固定值
 ## 总结
 Summarization
 1. 统计学习路线：设计模型->训练->预测
 2. 监督学习与非监督学习的联系与区别
 3. 统计学习三要素：模型、策略、算法
 4. 模型的评估：训练误差、验证误差、测试误差
 5. 正则化与交叉严重
 6. 泛化能力：泛化误差上界
 7. 生成模型与判别模型的联想与区别
 8. 分类问题：准确率、精确率、召回率、F1值
 9. 标准问题
 10. 回归问题：输出为连续的值