Create 1.统计学习方法概论.md

5 years ago · c3643829cc
parent dea6273328
commit c3643829cc
1 changed files with 245 additions and 0 deletions
--- a/机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md
+++ b/机器学习算法理论及应用/李航——统计学习方法/1.统计学习方法概论.md
@ -0,0 +1,245 @@
+# 统计学习方法概论
+
+### 知识树
+
+![1617682217280](assets/1617682217280.png)
+
+> 苹果表示比较重要的
+
+
+
+### 监督学习
+
+Supervised learning
+
+#### 监督学习的实现步骤：
+
+1. 得到一个有限的训练数据集合
+2. 确定模型的假设空间，也就是所有的备选模型
+3. 确定模型选择的准则，即学习策略
+4. 实现求解最优模型的算法
+5. 通过学习方法选择最优模型
+6. 利用学习的最优模型对新数据进行预测或分析
+
+![1617682530100](assets/1617682530100.png)
+
+> 告诉它哪些东西是好的，哪些东西是坏的，它依据这些来学习
+
+比如下面的例子：
+
+![1617682680722](assets/1617682680722.png)
+
+> 根据是否招女孩子喜欢的一些特征，来推导其它未知的数据是否招女孩子喜欢，而无监督学习是没有是否招女孩子喜欢这个标签，可能会采取一些聚类的方法，比如把身高聚的时候，高的一堆，矮的一堆，成绩高的一堆低的一堆，以得到类似的结果。
+
+按照常理来讲有监督学习肯定比无监督学习好，但现实生活中，有监督学习需要标注，也就是要大量的人力成本，而无监督数据的获取往往是最低成本的。
+
+
+
+### 统计学习三要素
+
+Element of statistical learning
+
+#### 模型（假设空间）
+
+> 假设所有的点都在空间中，每个点是一个模型或者函数
+
+决策函数：![1617683176867](assets/1617683176867.png)
+
+> f(x)：把所有的函数假设为f(x)
+>
+> θ：f(x)里头的参数，用来确定模型
+
+条件概率分布：![1617683208582](assets/1617683208582.png)
+
+策略：
+
+> 怎么确定θ的参数，让模型知道是否预测错了，错的偏差有多大
+
+0-1损失函数
+
+![1617683506221](assets/1617683506221.png)
+
+> 预测相同为0，否则为1，得继续努力，但这样有个很明显的缺陷，就是它只知道错了，但是不知道错在哪里
+
+平方损失函数
+
+![1617683522014](assets/1617683522014.png)
+
+> 弥补上面的缺陷，告诉它差距有多大，相等则不需要
+
+绝对损失函数
+
+![1617683540364](assets/1617683540364.png)
+
+> 防止小于0的情况，即Y-f(x)小于0，相当于非常非常好，这显然是不对的，所以加入绝对值，要么大于0，要么小于0
+
+对数损失函数
+
+![1617683559768](assets/1617683559768.png)
+
+> 让为0的概率越来越大，让为1的概率越来越小
+
+经验风险最小化：
+
+![1617691844212](assets/1617691844212.png)
+
+> 对每个样本跑一遍，将所有的loss平均计算，loss越大表示离真实的越大，loss越小说明里真实越接近，模型也越好
+
+结构风险最小化：
+
+![1617691949906](assets/1617691949906.png)
+
+> 加入正则项，防止过拟合，也就是模型过于复杂，过于只适合当前数据，导致预测其它数据的时候很差（泛化能力）。
+
+算法：挑选一个合适的算法，使得可以求解最优模型
+
+
+
+### 模型评估与选择
+
+Model evaluation and model selection
+
+训练误差：
+
+![1617692106744](assets/1617692106744.png)
+
+> 对所有训练数据的结果做一个平均，误差越大模型可能越大。但如果以训练集来评估，就想考试一样，如果考试题目平时已经见过，当然能做出来，要解决的是平均没见过的类似题目。
+
+测试误差：
+
+![1617692141368](assets/1617692141368.png)
+
+> 利用测试集去测试模型的训练情况。
+
+验证集：我们通常来讲，会挑选测试集表现最好的，但是也有总可能就是测试集刚好和训练集的“题目”类似，那它当然能表现的好，这时候就需要引入验证集。我们一般选择验证集表现最好的模型。
+
+多项式拟合问题：
+
+![1617692653540](assets/1617692653540.png)
+
+> 左上欠拟合严重，右上欠拟合，左下拟合正常，右下过拟合。实际中怎么判断过拟合，即训练集上误差非常低，但是在其它数据集上的误差非常高，一般就是过拟合。
+
+
+
+### 正则化与交叉验证
+
+Regularization and cross validation
+
+防止过拟合
+
+最小化结构风险：
+
+![1617692872918](assets/1617692872918.png)
+
+交叉验证：
+
+数据集随机划分为以下3部分：
+
+- 训练集：模型的训练
+- 测试集：模型的选择
+- 验证集：模型的评估
+
+![1617692942593](assets/1617692942593.png)
+
+
+
+### 泛化能力
+
+Generalization ability
+
+定理1.1泛化误差上界
+
+对于二分类问题，当假设空间是有限个函数的集合F = {f1,f2,...,fd}时，对任意一个函数f ∈ F，至少以概率1 - δ，以下不等式成立：![1617693142642](assets/1617693142642.png)
+
+其中，
+
+![1617693201106](assets/1617693201106.png)
+
+> 即以某种依据来确定模型是否具备泛化能力。但现实生活中这个是非常难实现的，问题在于有限个，而这个有限，在我们实际操作中是不可能知道是有限个的。
+
+
+
+### 生成模型与判别模型
+
+Generative model and discriminant model
+
+生成方法：![1617695077923](assets/1617695077923.png)
+
+> P(Y|X)：表示PX条件下，Y的概率
+
+判别方法：![1617695090214](assets/1617695090214.png)
+
+例子：如何知道女孩子的姓名呢？
+
+生成方法：我要是把她爸妈建模出来，直接问她爸妈不就行了吗？
+
+判别方法：她叫小红的概率是多少？她叫小刘的概率是多少？
+
+
+
+### 分类问题
+
+Classification
+
+TP——将正类预测为正类数；
+
+FN——将正类预测为负类数；
+
+FP——将负类预测为正类数；
+
+TN——将负类预测为负类数；
+
+精确率：预测为正类的样本中有多少分对了；
+
+![1617695936634](assets/1617695936634.png)
+
+召回率：在实际正类中，有多少正类被模型发现了
+
+![1617695964734](assets/1617695964734.png)
+
+F1值：
+
+![1617695979979](assets/1617695979979.png)
+
+![1617695988131](assets/1617695988131.png)
+
+一般会配合一个混淆矩阵：
+
+![1617696087388](assets/1617696087388.png)
+
+
+
+### 标注问题
+
+Tagging
+
+输入：
+
+x = (x1, x2, ..., xn) T
+
+y = (y1, y2, ..., yn) T
+
+
+
+### 回归问题
+
+Regression
+
+输出一个连续的值，不是0/1这种固定值
+
+
+
+## 总结
+
+Summarization
+
+1. 统计学习路线：设计模型->训练->预测
+2. 监督学习与非监督学习的联系与区别
+3. 统计学习三要素：模型、策略、算法
+4. 模型的评估：训练误差、验证误差、测试误差
+5. 正则化与交叉严重
+6. 泛化能力：泛化误差上界
+7. 生成模型与判别模型的联想与区别
+8. 分类问题：准确率、精确率、召回率、F1值
+9. 标准问题
+10. 回归问题：输出为连续的值