You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

229 lines
5.3 KiB

This file contains invisible Unicode characters!

This file contains invisible Unicode characters that may be processed differently from what appears below. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to reveal hidden characters.

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 6.逻辑斯蒂回归与最大熵
### 知识树
Knowledge tree
![1618835422531](assets/1618835422531.png)
相较前面的算法,性能更好,也更符合工业场景
### 一个逻辑斯蒂回归回归的故事
A story about the Logistic regression
1. 之前的f(x) = sign(w*x+b)只输出+1和-1这样的判别方式真的有效吗
2. 超平面左侧0.001距离的点和超平面右侧0.001距离的点真的有天壤之别吗?
![1618839609843](assets/1618839609843.png)
> 如上面两个黑点,明明只差分毫,却变成了+1或者-1。这也是感知机的缺陷
**我们想要解决的:**
1. 怎么解决极小距离带来的+1和-1的天壤之别
2. 怎么让最终的预测式子连续可微
### 逻辑斯蒂回归
Logistic regression
![1618844224722](assets/1618844224722.png)
![1618844241748](assets/1618844241748.png)
![1618844289114](assets/1618844289114.png)
> 连续可微
>
> 可输出概率
**参数估计:**
由上面的式子可知里面参数只有w和xx为已知的特征也就是更新w即可
逻辑斯蒂回归模型学习时对于给定的训练数据集T={(x1,y1), (x2,y2), ...,(xn,yn)},可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。
设:![1618849843275](assets/1618849843275.png)
> Y=1和Y=0相加时为1所以当Y=1=π(x)那么Y=0就等于1-π(x)
似然函数为
![1618849856107](assets/1618849856107.png)
> 当前的条件做连乘变换成log则是相加
对数似然函数为
![1618849880623](assets/1618849880623.png)
对L(w)求极大值得到w的估计值
**似然函数对w求导**
![1618850290883](assets/1618850290883.png)
![1618850302122](assets/1618850302122.png)
![1618850312660](assets/1618850312660.png)
### 总结
Summarization
1. 逻辑斯蒂以输出概率的形式解决了极小距离带来的+1和-1的天壤之别同时概率也可作为模型输出的置信程度。
2. 逻辑斯蒂使得了最终的模型函数连续可微,训练目标与预测目标达成一致。
3. 逻辑斯蒂采用了较大似然估计来估计参数。
### 一个最大熵的小故事
A story about the Maximum entropy model
我们去到拉斯维加斯赌场
问1我手里有个骰子问你扔下去后某个面朝上的概率是多少
答1都是1/6因为概率相同
问2我竟然认为有道理可如果是老千手里的骰子呢你还觉得是1/6吗
答2可是你没说是老千手里的
问3可是为什么你不去假设可能是老千手里的骰子这种情况
答3因为你没说是老千手里的
问4好像是这么个道理如果要考虑老千那可能还要考虑骰子是否破损桌面是否有问题
答4所以1/6最保险
问5如果我告诉你1朝上的概率是1/2呢
答5那剩下的就是1/10
**什么是最大熵?**
在我们猜测概率时不确定的部分我们认为是等可能的就像骰子一样我们知道有6个面因此认为每个面的概率是1/6也就是等可能。
换句话说,就是趋向于均匀分布,最大熵使用的就是这么朴素的道理:
凡是我们知道的,就把它考虑进去,凡是不知道的,通通均匀分布。
### 最大熵模型
Maximum entropy model
终极目标P(Y|X)
熵:![1619102072918](assets/1619102072918.png)
将终极目标代入熵:
![1619102101155](assets/1619102101155.png)
做些改变,调整熵:
![1619102153364](assets/1619102153364.png)
我们手里有训练集,包含所有样本及对应的标签。
![1619102378061](assets/1619102378061.png)
> v表示数目满足X=xY=y的数目
>
> 统计出来概率,通过频数
![1619102385980](assets/1619102385980.png)
**特征函数**
其作用是为了将某个特征x进行一些转换后让它和标签y起到重大的相关作用
![1619102621448](assets/1619102621448.png)
特征函数f(x,y)关于经验分布,![1619102676233](assets/1619102676233.png)的期望值:
![1619102692422](assets/1619102692422.png)
特征函数f(x,y)关于模型P(Y|X)与经验分布![1619102890428](assets/1619102890428.png)的期望值:
![1619102909494](assets/1619102909494.png)
> 下面的P表示真实世界中全部数据的分布即训练集不可能用上全部的数据一般都是某段时间的比如N年所以用![1619103339948](assets/1619103339948.png)表示它是真实的全部时间P中的某段的经验分布
约束:![1619103420910](assets/1619103420910.png)
> 希望训练集的和真实的全部数据是一致的分布
max
![1619103794313](assets/1619103794313.png)
![1619103711622](assets/1619103711622.png)
> fi表示让所有的特征都满足约束条件
min
![1619103835595](assets/1619103835595.png)
![1619103802671](assets/1619103802671.png)
**拉格朗日乘子法:**
![1619103884422](assets/1619103884422.png)
![1619103914972](assets/1619103914972.png)
> 求最小的值
![1619103936518](assets/1619103936518.png)
![1619103949860](assets/1619103949860.png)
### 总结
Summarization
1. 最大熵强调不提任何假设,以熵最大为目标。
2. 将终极目标代入熵的公式后,将其最大化。
3. 在训练集中寻找现有的约束,计算期望,将其作为约束。
使用拉格朗日乘子发得到P(y|x)之后使用优化算法得到P(y|x)中的参数w。