You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

5.3 KiB

6.逻辑斯蒂回归与最大熵

知识树

Knowledge tree

1618835422531

相较前面的算法,性能更好,也更符合工业场景

一个逻辑斯蒂回归回归的故事

A story about the Logistic regression

  1. 之前的f(x) = sign(w*x+b)只输出+1和-1这样的判别方式真的有效吗
  2. 超平面左侧0.001距离的点和超平面右侧0.001距离的点真的有天壤之别吗?

1618839609843

如上面两个黑点,明明只差分毫,却变成了+1或者-1。这也是感知机的缺陷

我们想要解决的:

  1. 怎么解决极小距离带来的+1和-1的天壤之别
  2. 怎么让最终的预测式子连续可微

逻辑斯蒂回归

Logistic regression

1618844224722

1618844241748

1618844289114

连续可微

可输出概率

参数估计:

由上面的式子可知里面参数只有w和xx为已知的特征也就是更新w即可

逻辑斯蒂回归模型学习时对于给定的训练数据集T={(x1,y1), (x2,y2), ...,(xn,yn)},可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。

设:1618849843275

Y=1和Y=0相加时为1所以当Y=1=π(x)那么Y=0就等于1-π(x)

似然函数为

1618849856107

当前的条件做连乘变换成log则是相加

对数似然函数为

1618849880623

对L(w)求极大值得到w的估计值

似然函数对w求导

1618850290883

1618850302122

1618850312660

总结

Summarization

  1. 逻辑斯蒂以输出概率的形式解决了极小距离带来的+1和-1的天壤之别同时概率也可作为模型输出的置信程度。
  2. 逻辑斯蒂使得了最终的模型函数连续可微,训练目标与预测目标达成一致。
  3. 逻辑斯蒂采用了较大似然估计来估计参数。

一个最大熵的小故事

A story about the Maximum entropy model

我们去到拉斯维加斯赌场

问1我手里有个骰子问你扔下去后某个面朝上的概率是多少

答1都是1/6因为概率相同

问2我竟然认为有道理可如果是老千手里的骰子呢你还觉得是1/6吗

答2可是你没说是老千手里的

问3可是为什么你不去假设可能是老千手里的骰子这种情况

答3因为你没说是老千手里的

问4好像是这么个道理如果要考虑老千那可能还要考虑骰子是否破损桌面是否有问题

答4所以1/6最保险

问5如果我告诉你1朝上的概率是1/2呢

答5那剩下的就是1/10

什么是最大熵?

在我们猜测概率时不确定的部分我们认为是等可能的就像骰子一样我们知道有6个面因此认为每个面的概率是1/6也就是等可能。

换句话说,就是趋向于均匀分布,最大熵使用的就是这么朴素的道理:

凡是我们知道的,就把它考虑进去,凡是不知道的,通通均匀分布。

最大熵模型

Maximum entropy model

终极目标P(Y|X)

熵:1619102072918

将终极目标代入熵:

1619102101155

做些改变,调整熵:

1619102153364

我们手里有训练集,包含所有样本及对应的标签。

1619102378061

v表示数目满足X=xY=y的数目

统计出来概率,通过频数

1619102385980

特征函数

其作用是为了将某个特征x进行一些转换后让它和标签y起到重大的相关作用

1619102621448

特征函数f(x,y)关于经验分布,1619102676233的期望值:

1619102692422

特征函数f(x,y)关于模型P(Y|X)与经验分布1619102890428的期望值:

1619102909494

下面的P表示真实世界中全部数据的分布即训练集不可能用上全部的数据一般都是某段时间的比如N年所以用1619103339948表示它是真实的全部时间P中的某段的经验分布

约束:1619103420910

希望训练集的和真实的全部数据是一致的分布

max

1619103794313

1619103711622

fi表示让所有的特征都满足约束条件

min

1619103835595

1619103802671

拉格朗日乘子法:

1619103884422

1619103914972

求最小的值

1619103936518

1619103949860

总结

Summarization

  1. 最大熵强调不提任何假设,以熵最大为目标。

  2. 将终极目标代入熵的公式后,将其最大化。

  3. 在训练集中寻找现有的约束,计算期望,将其作为约束。

    使用拉格朗日乘子发得到P(y|x)之后使用优化算法得到P(y|x)中的参数w。