Update 必备数学基础.md

5 years ago · 9d2d005a84
parent 223841e574
commit 9d2d005a84
1 changed files with 401 additions and 292 deletions
--- a/必备数学基础.md
+++ b/必备数学基础.md
@ -1,292 +1,401 @@
-# 必备数学基础
+# 必备数学基础
-
+
-### 函数
+### 函数
-
+
-**函数的定义**：
+**函数的定义**：
-
+
- y = f(x) 其中x是自变量，y是因变量。y随着x变化
+- y = f(x) 其中x是自变量，y是因变量。y随着x变化
-
+
-**几种特性**：
+**几种特性**：
-
+
-奇偶性、周期性、单调性（如下图）
+奇偶性、周期性、单调性（如下图）
-
+
-![1603372698983](assets/1603372698983.png)
+![1603372698983](assets/1603372698983.png)
-
+
-**极限**：
+**极限**：
-
+
- 按照一定次数排列的数：x1，x2，...，xn，其中xn叫做通项
+- 按照一定次数排列的数：x1，x2，...，xn，其中xn叫做通项
- 对于数列｛xn｝,当n无限增大时，其通项无限接近于一个常数A，则称该数列以A为极限或称数列收敛于A。
+- 对于数列｛xn｝,当n无限增大时，其通项无限接近于一个常数A，则称该数列以A为极限或称数列收敛于A。
-
+
-**导数**：
+**导数**：
-
+
- 都有对应的结果，不用死记硬背，查就行了，如(C)' = 0 或者(sin x)' = cos x
+- 都有对应的结果，不用死记硬背，查就行了，如(C)' = 0 或者(sin x)' = cos x
-
+
-
+
-
+
-### 方向导数（引出梯度）
+### 方向导数（引出梯度）
-
+
-> 在函数定义域的内点，对某一*方向*求导得到的*导数*。
+> 在函数定义域的内点，对某一*方向*求导得到的*导数*。
->
+>
-> 常规数学中，所有问题都有一个解。而机器学习当中，求解很难或者没有解，我们只能不断逼近这个最优解。
+> 常规数学中，所有问题都有一个解。而机器学习当中，求解很难或者没有解，我们只能不断逼近这个最优解。
-
+
-**问题一**：蚂蚁沿着什么方向跑路不被火烧，能活下来（二维平面）
+**问题一**：蚂蚁沿着什么方向跑路不被火烧，能活下来（二维平面）
-
+
-![有个坐标轴x,y，(0,0)处着火，蚂蚁应该怎么走](assets/1603675492825.png)
+![有个坐标轴x,y，(0,0)处着火，蚂蚁应该怎么走](assets/1603675492825.png)
-
+
-
+
-$$
+$$
-函数：z = f(x,y)
+函数：z = f(x,y)
-$$
+$$
-
+
-$$
+$$
-|pp'| = p = \sqrt{(\Delta x) ^ 2 + (\Delta y) ^ 2}
+|pp'| = p = \sqrt{(\Delta x) ^ 2 + (\Delta y) ^ 2}
-$$
+$$
-
+
-$$
+$$
-\Delta z = f(x + \Delta x, y + \Delta y)-f(x,y)
+\Delta z = f(x + \Delta x, y + \Delta y)-f(x,y)
-$$
+$$
-
+
-![公式方向图](assets/1603675552941.png)
+![公式方向图](assets/1603675552941.png)
-
+
-> 蚂蚁沿着任意方向都可以活，最优的是沿着对角方向L，z是函数变化，也就是图中的φ。
+> 蚂蚁沿着任意方向都可以活，最优的是沿着对角方向L，z是函数变化，也就是图中的φ。
-
+
-**三维平面的方向导数公式**：
+**三维平面的方向导数公式**：
-$$
+$$
-定理：如果函数z=f(x,y)在点P(x,y)是可微分的，那么在该点沿任意方向L的方向导数都存在。
+定理：如果函数z=f(x,y)在点P(x,y)是可微分的，那么在该点沿任意方向L的方向导数都存在。
-$$
+$$
-
+
-$$
+$$
-\frac {\delta f}{\delta l} = \frac {\delta f}{\delta x}cos\varphi + \frac {\delta f}{\delta y} sin \varphi
+\frac {\delta f}{\delta l} = \frac {\delta f}{\delta x}cos\varphi + \frac {\delta f}{\delta y} sin \varphi
-$$
+$$
-
+
-$$
+$$
-\varphi 是X轴到L的角度
+\varphi 是X轴到L的角度
-$$
+$$
-
+
-
+
-
+
-![立体坐标轴](assets/1603676258627.png)
+![立体坐标轴](assets/1603676258627.png)
-
+
-**求一个方向导数具体的值**：
+**求一个方向导数具体的值**：
-$$
+$$
-求函数z=xe^{2y}在点P(1,0)处沿从点P(1,0)到点Q(2,-1)的方向的方向导数.
+求函数z=xe^{2y}在点P(1,0)处沿从点P(1,0)到点Q(2,-1)的方向的方向导数.
-$$
+$$
-
+
-$$
+$$
-解\quad \quad 这里方向\vec l即为 \vec{PQ}={1,-1},故X轴到方向\vec l的转角\varphi = -\frac {\pi}{4}.
+解\quad \quad 这里方向\vec l即为 \vec{PQ}={1,-1},故X轴到方向\vec l的转角\varphi = -\frac {\pi}{4}.
-$$
+$$
-
+
-$$
+$$
-\because \frac {\delta z}{\delta x}|_{(1,0)} = e^{2y}|_{(1,0)}=1;
+\because \frac {\delta z}{\delta x}|_{(1,0)} = e^{2y}|_{(1,0)}=1;
- \frac {\delta z}{\delta y}|_{(1,0)} = 2xe^{2y}|_{(1,0)}=2,
+ \frac {\delta z}{\delta y}|_{(1,0)} = 2xe^{2y}|_{(1,0)}=2,
-$$
+$$
-
+
-$$
+$$
-所求方向导数
+所求方向导数
-$$
+$$
-
+
-$$
+$$
-\frac {\delta z}{\delta l}=cos(-\frac{\pi}{4})+2sin(-\frac{\pi}{4})=-\frac{\sqrt 2}{2}.
+\frac {\delta z}{\delta l}=cos(-\frac{\pi}{4})+2sin(-\frac{\pi}{4})=-\frac{\sqrt 2}{2}.
-$$
+$$
-
+
-
+
-
+
-### 梯度
+### 梯度
-
+
-> 是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此*梯度*的方向）变化最快，变化率最大（为该*梯度*的模）。
+> 是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此*梯度*的方向）变化最快，变化率最大（为该*梯度*的模）。
-
+
-$$
+$$
-函数：z=f(x,y)在平面域内具有连续的一阶偏导数，对于其中每一个点P(x,y)都有向量\frac {\delta f}{\delta x}\vec i + \frac {\delta f}{\delta y}\vec j
+函数：z=f(x,y)在平面域内具有连续的一阶偏导数，对于其中每一个点P(x,y)都有向量\frac {\delta f}{\delta x}\vec i + \frac {\delta f}{\delta y}\vec j
-$$
+$$
-
+
-$$
+$$
-则称其为函数在点P的梯度。
+则称其为函数在点P的梯度。
-$$
+$$
-
+
-$$
+$$
-gradf(x,y)=\frac {\delta f}{\delta x}\vec i + \frac {\delta f}{\delta y}\vec j
+gradf(x,y)=\frac {\delta f}{\delta x}\vec i + \frac {\delta f}{\delta y}\vec j
-$$
+$$
-
+
-$$
+$$
-\vec e = cos\varphi\vec i + sin\varphi\vec j是方向L上的单位向量
+\vec e = cos\varphi\vec i + sin\varphi\vec j是方向L上的单位向量
-$$
+$$
-
+
-$$
+$$
-\frac {\delta f}{\delta l}=\frac {\delta f}{\delta x}cos\varphi+\frac{\delta f}{\delta y}sin\varphi=\{\frac{\delta f}{\delta x}, \frac{\delta f}{\delta y}\}·\{cos\varphi, sin\varphi\}
+\frac {\delta f}{\delta l}=\frac {\delta f}{\delta x}cos\varphi+\frac{\delta f}{\delta y}sin\varphi=\{\frac{\delta f}{\delta x}, \frac{\delta f}{\delta y}\}·\{cos\varphi, sin\varphi\}
-$$
+$$
-
+
-$$
+$$
-=gradf(x,y)·\vec e = |gradf(x,y)|cos\theta \quad \theta=(gradf(x,y),\vec e)
+=gradf(x,y)·\vec e = |gradf(x,y)|cos\theta \quad \theta=(gradf(x,y),\vec e)
-$$
+$$
-
+
-> 根据上面的梯度导数，和方向导数的区别就在多了个*cosθ*，*θ*充当梯度和方向导数之间的关系
+> 根据上面的梯度导数，和方向导数的区别就在多了个*cosθ*，*θ*充当梯度和方向导数之间的关系
-
+
-$$
+$$
-只有当cos(gradf(x,y),\vec e)=1,\frac{\delta f}{\delta l}才有最大值。
+只有当cos(gradf(x,y),\vec e)=1,\frac{\delta f}{\delta l}才有最大值。
-$$
+$$
-
+
-函数在某点的梯度是一个向量，它的方向与方向导数最大值取得的方向一致。
+函数在某点的梯度是一个向量，它的方向与方向导数最大值取得的方向一致。
-
+
-其大小正好是最大的方向导数
+其大小正好是最大的方向导数
-
+
-![梯度图](assets/1603681846373.png)
+![梯度图](assets/1603681846373.png)
-
+
-> 注意，只有*θ*=0，*cos*导数才能=1，梯度才能取得最大值，也就是那个方向。而沿着反方向就是最小值也就是梯度下降。
+> 注意，只有*θ*=0，*cos*导数才能=1，梯度才能取得最大值，也就是那个方向。而沿着反方向就是最小值也就是梯度下降。
-
+
-**求一个具体值，最大梯度方向和最小梯度方向**：
+**求一个具体值，最大梯度方向和最小梯度方向**：
-$$
+$$
-设u=xyz+z^2+5,求gradu,并求在点M(0,1,-1)处方向导数的最大(小)值
+设u=xyz+z^2+5,求gradu,并求在点M(0,1,-1)处方向导数的最大(小)值
-$$
+$$
-
+
-$$
+$$
-\because \frac{\delta u}{\delta x}=yz, \frac{\delta u}{\delta y}=xz,\frac{\delta u}{\delta z}=xy+2z,
+\because \frac{\delta u}{\delta x}=yz, \frac{\delta u}{\delta y}=xz,\frac{\delta u}{\delta z}=xy+2z,
-$$
+$$
-
+
-$$
+$$
-\therefore gradu|_{(0,1,-1)}=(yz,xz,xy+2z)|_{(0,1,-1)}=(-1,0)
+\therefore gradu|_{(0,1,-1)}=(yz,xz,xy+2z)|_{(0,1,-1)}=(-1,0)
-$$
+$$
-
+
-$$
+$$
-从而最大值\quad max\{\frac{\delta u}{\delta l}|_M\}=||gradu||=\sqrt 5
+从而最大值\quad max\{\frac{\delta u}{\delta l}|_M\}=||gradu||=\sqrt 5
-$$
+$$
-
+
-$$
+$$
-最小值\quad min\{\frac{\delta u}{\delta l}|_M\}=-||gradu||=-\sqrt 5
+最小值\quad min\{\frac{\delta u}{\delta l}|_M\}=-||gradu||=-\sqrt 5
-$$
+$$
-
+
-> 注：得出的结果(-1,0,2)，求解：((-1^2) + (0^2) + (-2^2)) = √5，前面都是x的平方，所以结果也需要开根号。
+> 注：得出的结果(-1,0,2)，求解：((-1^2) + (0^2) + (-2^2)) = √5，前面都是x的平方，所以结果也需要开根号。
-
+
-
+
-
+
-### 微积分
+### 微积分
-
+
-> 很多的微分积起来
+> 很多的微分积起来
-
+
-如何求A面积的值
+如何求A面积的值
-
+
-![1603589223245](assets/1603589223245.png)
+![1603589223245](assets/1603589223245.png)
-
+
-**以直代曲**：
+**以直代曲**：
-
+
-对于矩形，我们可以轻松求得其面积，能否用矩形代替曲线形状呢？
+- 对于矩形，我们可以轻松求得其面积，能否用矩形代替曲线形状呢？
-
+
-应该用多少个矩形来代替？
+
-
+- 应该用多少个矩形来代替？
-![四个小矩形和九个小矩形](assets/1603685656784.png)
+
-
+
-> 越小的矩形，越覆盖，然后求每个矩形的面积。
+![四个小矩形和九个小矩形](assets/1603685656784.png)
-
+
-
+> 越小的矩形，越覆盖，然后求每个矩形的面积。
-$$
+
-在ab之间插入若干个点，得到n个小区间。
+
-$$
+$$
-
+在ab之间插入若干个点，得到n个小区间。
-$$
+$$
-每个小矩形面积为：A_i=f(\xi
+
-_i)\Delta x_i近似得到曲线面积：A\approx \sum^{n}_{i=1}f(\xi_i)\Delta x_i
+$$
-$$
+每个小矩形面积为：A_i=f(\xi
-
+_i)\Delta x_i近似得到曲线面积：A\approx \sum^{n}_{i=1}f(\xi_i)\Delta x_i
-$$
+$$
-当分割无限加细，每个小区间的最大长度为\lambda，此时\lambda → 0
+
-$$
+$$
-
+当分割无限加细，每个小区间的最大长度为\lambda，此时\lambda → 0
-$$
+$$
-曲边面积：A=lim_{\lambda→0}\sum^n_{i=1}f(\xi_i)\Delta x_i
+
-$$
+$$
-
+曲边面积：A=lim_{\lambda→0}\sum^n_{i=1}f(\xi_i)\Delta x_i
-![1603688411669](assets/1603688411669.png)
+$$
-
+
-> 注意每个小区间的最大长度为λ，而λ无限接近于0时，那么曲边的面积我们就可以得出，当然这里的近似表达是极限，无限接近的极限。
+![1603688411669](assets/1603688411669.png)
-
+
-求和
+> 注意每个小区间的最大长度为λ，而λ无限接近于0时，那么曲边的面积我们就可以得出，当然这里的近似表达是极限，无限接近的极限。
-
+
-![1603589561963](assets/1603589561963.png)
+**求和**：
-
+
-> 将上面的所有矩阵求和，∫ = sum，求和的意思
+我们需要尽可能的将每一个矩形的底边无穷小
-
+$$
-**定积分**:
+莱布尼茨为了体现求和的感觉，把S拉长了，简写成\int f(x)dx \quad Sum(f(x)\Delta x) => \int_{um}f(x)dx
-
+$$
-![1603590034899](assets/1603590034899.png)
+![1603765637923](assets/1603765637923.png)
-
+
-
+> 将上面的所有矩阵求和，∫ = sum，求和的意思
-
+
-### 矩阵和特征
+**定积分**:
-
+$$
-**矩阵**：
+当||\Delta x||→0时，总和S总数趋于确定的极限l，则称极限l为函数f(x)在曲线[a,b]上的定积分
-
+$$
-> 拿到数据后，数据就长如下样子，有行有列
+![1603765921296](assets/1603765921296.png)
-
+
-![1603615232363](assets/1603615232363.png)
+
-
+
-> 左图√表示A可以到B和C，如右上图，再把√号改成0/1以存储在数据里面，就如右下图
+### 矩阵和特征
-
+
-**几种特别的矩阵**：
+**矩阵**：
-
+
-![1603616214041](assets/1603616214041.png)
+> 拿到数据后，数据就长如下样子，有行有列
-
+
-> 上三角部分有值，和下三角部分有值
+
-
+
-![1603616244944](assets/1603616244944.png)
+![1603615232363](assets/1603615232363.png)
-
+
-> 对角阵：对角有值且可以是任意值，单位矩阵：对角有值且相同
+> 左图√表示A可以到B和C，如右上图，再把√号改成0/1以存储在数据里面，就如右下图
-
+
-![1603616315241](assets/1603616315241.png)
+**几种特别的矩阵**：
-
+$$
-> 同型矩阵：行列相同。矩阵相等：行列相同且里面的值一样
+上三角矩阵
-
+\left[
-### SVD矩阵分解
+\matrix{
-
+  a_{11} & a_{12} & ... &a_{1n}\\
-数据行列可能很大，如电商行业100万客户（行），有1万的商品（特征），用一组数据表达就是
+  0 & a_{22} & ... &a_{2n}\\
-
+  ⋮ & ⋮ &⋮&⋮\\
-| 客户ID   | 商品1             | 商品2 | ...  | 商品1万 |
+  0 & 0 & ... &a_{nm}\\
-| -------- | ----------------- | ----- | ---- | ------- |
+}
-| xxx1     | 1（表示买过一次） | 0     | ...  | 5       |
+\right]
-| xxx2     | 0                 | 1     | ...  | 0       |
+\quad 下三角矩阵
-| ...      | 5                 | 10    | ...  | 0       |
+\left[
-| xxx100万 | ...               | ...   | ...  | ...     |
+\matrix{
-
+  a_{11} & 0 & ...& 0\\
-那么来一个客户，就是直接多1万列表示，这样的数据是非常稀疏的，我们可以分解成A表100万客户，100个特征，而这100个特征对应这那B表的1万个商品，也就是一个表变成A表和B表，且两者关联。
+  a_{21} & a_{22} & ... &0\\
-
+  ⋮ & ⋮ & ⋮ & ⋮ \\
-这就需要用到SVD矩阵。
+  a_{n1} & a_{n2} & ... &a_{nm}\\
-
+}
-
+\right]
-
+$$
-### 离散和连续型数据
+
-
+> 上三角部分有值，和下三角部分有值
-![1603623698138](assets/1603623698138.png)
+
-
+$$
-> 离散型是有限多个的，比如10个台阶，只可能是其中的一个台阶，一个确定的结果。
+对角阵
->
+\left[
-> 连续型则可能是任意的值，没办法确定是哪个台阶。
+\matrix{
-
+  \lambda_1 & 0 & ... &0\\
-**离散型随机变量概率分布**
+  0 & \lambda_2 & ... &0\\
-
+  ⋮ & ⋮ & &⋮\\
-![1603624212861](assets/1603624212861.png)
+  0 & 0 & ... &\lambda_n\\
-
+}
-**连续型随机变量概率分布**
+\right]
-
+\quad 单位矩阵
-![1603624629046](assets/1603624629046.png)
+\left[
-
+\matrix{
-> 还有一种方法是把每个值划分在不同区间，变成离散型，但如果有新数据进来就要再划分区间导致区间越来越多。
+  1 & 0 & ...& 0\\
-
+  0 & 1 & ... &0\\
-### 简单随机抽样
+  ⋮ & ⋮ & ⋮ & ⋮ \\
-
+  0 & 0 & ... &1\\
-抽取的样本满足两点
+}
-
+\right]
-1. 样本X1，X2...Xn是相互独立的随机变量。
+$$
-2. 样本X1，X2...Xn与总体X同分布。
+
-
+> 对角阵：对角有值且可以是任意值，单位矩阵：对角有值且相同
-![1603624871257](assets/1603624871257.png)
+
-
+$$
-### 极大似然估计
+两个矩阵行列数相同的时候称为同型矩阵
-
+\left[
-> 找到最有可能的那个
+\matrix{
-
+  1 & 2\\
-![1603626327837](assets/1603626327837.png)
+  6 & 7\\
-
+  4 & 3 
-> 第一步构造函数；第二步取对数，对数后的值容易取且极值点还是那个位置；第三步求偏导；得到θ
+}
-
+\right]
-![1603626465653](assets/1603626465653.png)
+与
-
+\left[
-![1603626480659](assets/1603626480659.png)
+\matrix{
-
+  12 & 2\\
  9 & 1\\
  10 & 6 
 }
 \right]
 $$
 > 同型矩阵：行列相同。矩阵相等：行列相同且里面的值一样
 ### SVD矩阵分解
 数据行列可能很大，如电商行业100万客户（行），有1万的商品（特征），用一组数据表达就是
 | 客户ID   | 商品1             | 商品2 | ...  | 商品1万 |
 | -------- | ----------------- | ----- | ---- | ------- |
 | xxx1     | 1（表示买过一次） | 0     | ...  | 5       |
 | xxx2     | 0                 | 1     | ...  | 0       |
 | ...      | 5                 | 10    | ...  | 0       |
 | xxx100万 | ...               | ...   | ...  | ...     |
 那么来一个客户，就是直接多1万列表示，这样的数据是非常稀疏的，我们可以分解成A表100万客户，100个特征，而这100个特征对应这那B表的1万个商品，也就是一个表变成A表和B表，且两者关联。
 这就需要用到SVD矩阵。
 ### 离散和连续型数据
 ![1603623698138](assets/1603623698138.png)
 > 离散型是有限多个的，比如10个台阶，只可能是其中的一个台阶，一个确定的结果。
 >
 > 连续型则可能是任意的值，没办法确定是哪个台阶。
 **离散型随机变量概率分布**
 - 找到离散型随机变量X的所有可能取值
 - 得到离散型随机变量取这些值的概率
  ![1603767423885](assets/1603767423885.png)
  $$
  f(x_i)=P(X=x_i)为离散型随机变量的概率函数
  $$
 **连续型随机变量概率分布**
 - 密度：一个物体，如果问其中一个点的质量是多少？这该怎么求？
  由于这个点实在太小了，那么质量就为0了，但是其中的一大块是由
  很多个点组成的，这时我们就可以根据密度来求其质量了
 - X为连续随机变量，X在任意区间(a,b]上的概率可以表示为：
 $$
 P(a<X\leq b)=\int_a^bf(x)dx
 \quad 其中f(x)就叫做X的概率密度函数，也可以简单叫做密度
 $$
 > 还有一种方法是把每个值划分在不同区间，变成离散型，但如果有新数据进来就要再划分区间导致区间越来越多。
 ### 简单随机抽样
 抽取的样本满足两点
 1. 样本X1，X2...Xn是相互独立的随机变量。
 2. 样本X1，X2...Xn与总体X同分布。
 $$
 联合分布函数：F(x_1,x_2,...,x_n)=\prod_{i=1}^nF(x_i)
 $$
 $$
 联合概率密度：f(x_1,x_2,...,x_n)=\prod_{i=1}^nf(x_i)
 $$
 ### 极大似然估计
 > 找到最有可能的那个
 1. $$
   构造似然函数：L(\theta)
   $$
 2. $$
   对似然函数取对数：lnL(\theta)
   $$
 3. $$
   求偏导：\frac {dlnL}{d\theta}=0
   $$
 4. $$
   求解得到\theta值
   $$
   ![1603768031523](assets/1603768031523.png)
 > 第一步构造函数；第二步取对数，对数后的值容易取且极值点还是那个位置；第三步求偏导；得到θ
 ![1603626465653](assets/1603626465653.png)
 ![1603626480659](assets/1603626480659.png)