AiLearning-Theory-Applying/机器学习算法原理及推导/李航——统计学习方法/6.逻辑斯蒂回归与最大熵.md

# 6.逻辑斯蒂回归与最大熵

### 知识树

Knowledge tree

![1618835422531](assets/1618835422531.png)

相较前面的算法，性能更好，也更符合工业场景


### 一个逻辑斯蒂回归回归的故事

A story about the Logistic regression

1. 之前的f(x) = sign(w*x+b)只输出+1和-1，这样的判别方式真的有效吗？
2. 超平面左侧0.001距离的点和超平面右侧0.001距离的点真的有天壤之别吗？

![1618839609843](assets/1618839609843.png)

> 如上面两个黑点，明明只差分毫，却变成了+1或者-1。这也是感知机的缺陷

**我们想要解决的：**

1. 怎么解决极小距离带来的+1和-1的天壤之别
2. 怎么让最终的预测式子连续可微


### 逻辑斯蒂回归

Logistic regression

![1618844224722](assets/1618844224722.png)

![1618844241748](assets/1618844241748.png)

![1618844289114](assets/1618844289114.png)


> 连续可微
>
> 可输出概率


**参数估计：**

由上面的式子可知，里面参数只有w和x，x为已知的特征，也就是更新w即可

逻辑斯蒂回归模型学习时，对于给定的训练数据集T={(x1,y1), (x2,y2), ...,(xn,yn)}，可以应用极大似然估计法估计模型参数，从而得到逻辑斯蒂回归模型。

设：![1618849843275](assets/1618849843275.png)

> Y=1和Y=0相加时为1，所以当Y=1=π(x)，那么Y=0就等于1-π(x)

似然函数为

![1618849856107](assets/1618849856107.png)

> 当前的条件做连乘，变换成log则是相加

对数似然函数为

![1618849880623](assets/1618849880623.png)

对L(w)求极大值，得到w的估计值

**似然函数对w求导：**

![1618850290883](assets/1618850290883.png)

![1618850302122](assets/1618850302122.png)

![1618850312660](assets/1618850312660.png)


### 总结

Summarization

1. 逻辑斯蒂以输出概率的形式解决了极小距离带来的+1和-1的天壤之别，同时概率也可作为模型输出的置信程度。
2. 逻辑斯蒂使得了最终的模型函数连续可微，训练目标与预测目标达成一致。
3. 逻辑斯蒂采用了较大似然估计来估计参数。


### 一个最大熵的小故事

A story about the Maximum entropy model

我们去到拉斯维加斯赌场

问1：我手里有个骰子，问你扔下去后某个面朝上的概率是多少？

答1：都是1/6，因为概率相同


问2：我竟然认为有道理，可如果是老千手里的骰子呢？你还觉得是1/6吗？

答2：可是你没说是老千手里的


问3：可是为什么你不去假设可能是老千手里的骰子这种情况？

答3：因为你没说是老千手里的


问4：好像是这么个道理，如果要考虑老千，那可能还要考虑骰子是否破损，桌面是否有问题

答4：所以1/6最保险


问5：如果我告诉你，1朝上的概率是1/2呢？

答5：那剩下的就是1/10


**什么是最大熵？**

在我们猜测概率时，不确定的部分我们认为是等可能的，就像骰子一样，我们知道有6个面，因此认为每个面的概率是1/6，也就是等可能。

换句话说，就是趋向于均匀分布，最大熵使用的就是这么朴素的道理：

	凡是我们知道的，就把它考虑进去，凡是不知道的，通通均匀分布。


### 最大熵模型

Maximum entropy model

终极目标：P(Y|X)

熵：![1619102072918](assets/1619102072918.png)

将终极目标代入熵：

![1619102101155](assets/1619102101155.png)

做些改变，调整熵：

![1619102153364](assets/1619102153364.png)

我们手里有训练集，包含所有样本及对应的标签。

![1619102378061](assets/1619102378061.png)

> v表示数目，满足X=x，Y=y的数目
>
> 统计出来概率，通过频数

![1619102385980](assets/1619102385980.png)


**特征函数**

其作用是为了将某个特征x，进行一些转换后，让它和标签y起到重大的相关作用

![1619102621448](assets/1619102621448.png)

特征函数f(x,y)关于经验分布，![1619102676233](assets/1619102676233.png)的期望值：

![1619102692422](assets/1619102692422.png)

特征函数f(x,y)关于模型P(Y|X)与经验分布![1619102890428](assets/1619102890428.png)的期望值：

![1619102909494](assets/1619102909494.png)

> 下面的P表示真实世界中全部数据的分布，即训练集不可能用上全部的数据，一般都是某段时间的，比如N年，所以用![1619103339948](assets/1619103339948.png)表示它是真实的全部时间P中的某段的经验分布

约束：![1619103420910](assets/1619103420910.png)

> 希望训练集的和真实的全部数据是一致的分布


max

![1619103794313](assets/1619103794313.png)

![1619103711622](assets/1619103711622.png)

> fi表示让所有的特征都满足约束条件

min

![1619103835595](assets/1619103835595.png)

![1619103802671](assets/1619103802671.png)


**拉格朗日乘子法：**

![1619103884422](assets/1619103884422.png)

![1619103914972](assets/1619103914972.png)

> 求最小的值

![1619103936518](assets/1619103936518.png)

![1619103949860](assets/1619103949860.png)


### 总结

Summarization

1. 最大熵强调不提任何假设，以熵最大为目标。

2. 将终极目标代入熵的公式后，将其最大化。

3. 在训练集中寻找现有的约束，计算期望，将其作为约束。

   使用拉格朗日乘子发得到P(y|x)，之后使用优化算法得到P(y|x)中的参数w。