AiLearning-Theory-Applying/必备数学基础.md

# 必备数学基础

### 函数

**函数的定义**：

- y = f(x) 其中x是自变量，y是因变量。y随着x变化

**几种特性**：

奇偶性、周期性、单调性（如下图）

![1603799800751](assets/1603799800751.png)

**极限**：

- 按照一定次数排列的数：x1，x2，...，xn，其中xn叫做通项
- 对于数列｛xn｝,当n无限增大时，其通项无限接近于一个常数A，则称该数列以A为极限或称数列收敛于A。

**导数**：

- 都有对应的结果，不用死记硬背，查就行了，如(C)' = 0 或者(sin x)' = cos x


### 方向导数（引出梯度）

> 在函数定义域的内点，对某一*方向*求导得到的*导数*。
>
> 常规数学中，所有问题都有一个解。而机器学习当中，求解很难或者没有解，我们只能不断逼近这个最优解。

**问题一**：蚂蚁沿着什么方向跑路不被火烧，能活下来（二维平面）

![有个坐标轴x,y，(0,0)处着火，蚂蚁应该怎么走](assets/1603799891825.png)

> 蚂蚁沿着任意方向都可以活，最优的是沿着对角方向L，z是函数变化，也就是图中的φ。

**三维平面的方向导数公式**：

![1603799859450](assets/1603799859450.png)


**求一个方向导数具体的值**：

求函数![1603800015017](assets/1603800015017.png)在点P(1,0)处，沿着从点P(1,0)到点Q(2,-1)的方向的方向导数。

![1603800127515](assets/1603800127515.png)


所求方向导数

![1603800171837](assets/1603800171837.png)

### 梯度

> 是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此*梯度*的方向）变化最快，变化率最大（为该*梯度*的模）。

函数：z = f(x,y)在平面域内具有连续的一阶偏导数，对于其中每个点P(x,y)都有向量![1603800802065](assets/1603800802065.png)则其称为函数点P的梯度。

![1603800856376](assets/1603800856376.png)

![1603800888757](assets/1603800888757.png)是方向L上的单位向量

![1603800922280](assets/1603800922280.png)

![1603800960729](assets/1603800960729.png)

> 根据上面的梯度导数，和方向导数的区别就在多了个*cosθ*，*θ*充当梯度和方向导数之间的关系

只有当![1603801027540](assets/1603801027540.png)才有最大值

函数在某点的梯度是一个向量，它的方向与方向导数最大值取得的方向一致。

其大小正好是最大的方向导数

![梯度图](assets/1603681846373.png)

> 注意，只有*θ*=0，*cos*导数才能=1，梯度才能取得最大值，也就是那个方向。而沿着反方向就是最小值也就是梯度下降。

**求一个具体值，最大梯度方向和最小梯度方向**：

设![1603800305729](assets/1603800305729.png)求grad u，并求在点M(0,1,-1)处方向导数的最大（小）值

![1603800371917](assets/1603800371917.png)

![1603800394319](assets/1603800394319.png)

![1603800457473](assets/1603800457473.png)

> 注：得出的结果(-1,0,2)，求解：((-1^2) + (0^2) + (-2^2)) = √5，前面都是x的平方，所以结果也需要开根号。


### 微积分

> 很多的微分积起来

如何求A面积的值

![1603589223245](assets/1603589223245.png)

**以直代曲**：

- 对于矩形，我们可以轻松求得其面积，能否用矩形代替曲线形状呢？


- 应该用多少个矩形来代替？


![四个小矩形和九个小矩形](assets/1603685656784.png)

> 越小的矩形，越覆盖，然后求每个矩形的面积。

**面积的由来**：

- 在ab之间插入若干个点，这样就得到n个小区间。
- 每个小矩形面积为：![1603801255298](assets/1603801255298.png)近似得到曲线面积![1603801287337](assets/1603801287337.png)
- 当分割无限加细，每个小区间的最大长度为λ，此时λ → 0
- 曲边面积：![1603801393606](assets/1603801393606.png)

![1603688411669](assets/1603688411669.png)

> 注意每个小区间的最大长度为λ，而λ无限接近于0时，那么曲边的面积我们就可以得出，当然这里的近似表达是极限，无限接近的极限。

**求和**：

我们需要尽可能的将每一个矩形的底边无穷小


莱布尼茨为了体现求和的感觉，把S拉长了，简写成![1603790307464](assets/1603790307464.png)

![1603765637923](assets/1603765637923.png)

> 将上面的所有矩阵求和，∫ = sum，求和的意思

**定积分**:

当![1603790249795](assets/1603790249795.png)时，总和S总数趋于确定的极限l，则称极限l为函数f(x)在曲线[a,b]上的定积分

![1603765921296](assets/1603765921296.png)


### 矩阵和特征

**矩阵**：

> 拿到数据后，数据就长如下样子，有行有列

![1603615232363](assets/1603615232363.png)

> 左图√表示A可以到B和C，如右上图，再把√号改成0/1以存储在数据里面，就如右下图

**几种特别的矩阵**：

![1603790184301](assets/1603790184301.png)

> 上三角部分有值，和下三角部分有值

![1603790200046](assets/1603790200046.png)

> 对角阵：对角有值且可以是任意值，单位矩阵：对角有值且相同

![1603790209907](assets/1603790209907.png)

> 同型矩阵：行列相同。矩阵相等：行列相同且里面的值一样

### SVD矩阵分解

数据行列可能很大，如电商行业100万客户（行），有1万的商品（特征），用一组数据表达就是

| 客户ID   | 商品1             | 商品2 | ...  | 商品1万 |
| -------- | ----------------- | ----- | ---- | ------- |
| xxx1     | 1（表示买过一次） | 0     | ...  | 5       |
| xxx2     | 0                 | 1     | ...  | 0       |
| ...      | 5                 | 10    | ...  | 0       |
| xxx100万 | ...               | ...   | ...  | ...     |

那么来一个客户，就是直接多1万列表示，这样的数据是非常稀疏的，我们可以分解成A表100万客户，100个特征，而这100个特征对应这那B表的1万个商品，也就是一个表变成A表和B表，且两者关联。

这就需要用到SVD矩阵。


### 离散和连续型数据

![1603623698138](assets/1603623698138.png)

> 离散型是有限多个的，比如10个台阶，只可能是其中的一个台阶，一个确定的结果。
>
> 连续型则可能是任意的值，没办法确定是哪个台阶。

**离散型随机变量概率分布**

- 找到离散型随机变量X的所有可能取值

- 得到离散型随机变量取这些值的概率

  ![1603767423885](assets/1603767423885.png)

  ![1603790123695](assets/1603790123695.png)为离散型随机变量的概率函数

**连续型随机变量概率分布**

- 密度：一个物体，如果问其中一个点的质量是多少？这该怎么求？

  由于这个点实在太小了，那么质量就为0了，但是其中的一大块是由

  很多个点组成的，这时我们就可以根据密度来求其质量了

- X为连续随机变量，X在任意区间(a,b]上的概率可以表示为：

  ![1603790041924](assets/1603790041924.png)其中f(x)就叫做X的概率密度函数，也可以简单叫做密度

> 还有一种方法是把每个值划分在不同区间，变成离散型，但如果有新数据进来就要再划分区间导致区间越来越多。

### 简单随机抽样

抽取的样本满足两点

1. 样本X1，X2...Xn是相互独立的随机变量。

2. 样本X1，X2...Xn与总体X同分布。

   ![1603790015180](assets/1603790015180.png)

### 极大似然估计

> 找到最有可能的那个

1. 构造似然函数：L(θ)

2. 对似然函数取对数：lnL(θ)

   > 做log后，logAB = logA + logB，加法更好求

3. 求偏导![1603801570385](assets/1603801570385.png)

4. 求解得到 θ 值

   ![1603768031523](assets/1603768031523.png)

> 第一步构造函数；第二步取对数，对数后的值容易取且极值点还是那个位置；第三步求偏导；得到θ

**求一个具体的值**：

设 X 服从参数 λ(λ>0) 的泊松分布，x1,x2,...,xn 是来自 X 的一个样本值，求λ的极大似然估计值

- 因为X的分布律为![1603802012244](assets/1603802012244.png)
- 所以 λ 的似然函数为![1603802070909](assets/1603802070909.png)
- ![1603802228693](assets/1603802228693.png)
- 令![1603802263577](assets/1603802263577.png)
- 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
+								# 必备数学基础
 								### 函数
 								**函数的定义**：
 								- y = f(x) 其中x是自变量，y是因变量。y随着x变化
 								**几种特性**：
 								奇偶性、周期性、单调性（如下图）
-												Update assets

											
										
										
											4 years ago
+								![1603799800751](assets/1603799800751.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								**极限**：
 								- 按照一定次数排列的数：x1，x2，...，xn，其中xn叫做通项
 								- 对于数列｛xn｝,当n无限增大时，其通项无限接近于一个常数A，则称该数列以A为极限或称数列收敛于A。
 								**导数**：
 								- 都有对应的结果，不用死记硬背，查就行了，如(C)' = 0 或者(sin x)' = cos x
 								### 方向导数（引出梯度）
 								> 在函数定义域的内点，对某一*方向*求导得到的*导数*。
 								>
 								> 常规数学中，所有问题都有一个解。而机器学习当中，求解很难或者没有解，我们只能不断逼近这个最优解。
 								**问题一**：蚂蚁沿着什么方向跑路不被火烧，能活下来（二维平面）
-												Update assets

											
										
										
											4 years ago
+								![有个坐标轴x,y，(0,0)处着火，蚂蚁应该怎么走](assets/1603799891825.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 蚂蚁沿着任意方向都可以活，最优的是沿着对角方向L，z是函数变化，也就是图中的φ。
 								**三维平面的方向导数公式**：
-												Update assets

											
										
										
											4 years ago
+								![1603799859450](assets/1603799859450.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								**求一个方向导数具体的值**：
-												Update assets

											
										
										
											4 years ago
+								求函数![1603800015017](assets/1603800015017.png)在点P(1,0)处，沿着从点P(1,0)到点Q(2,-1)的方向的方向导数。
 								![1603800127515](assets/1603800127515.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								所求方向导数
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								![1603800171837](assets/1603800171837.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								### 梯度
 								> 是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此*梯度*的方向）变化最快，变化率最大（为该*梯度*的模）。
-												Update assets

											
										
										
											4 years ago
+								函数：z = f(x,y)在平面域内具有连续的一阶偏导数，对于其中每个点P(x,y)都有向量![1603800802065](assets/1603800802065.png)则其称为函数点P的梯度。
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								![1603800856376](assets/1603800856376.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								![1603800888757](assets/1603800888757.png)是方向L上的单位向量
 								![1603800922280](assets/1603800922280.png)
 								![1603800960729](assets/1603800960729.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 根据上面的梯度导数，和方向导数的区别就在多了个*cosθ*，*θ*充当梯度和方向导数之间的关系
-												Update assets

											
										
										
											4 years ago
+								只有当![1603801027540](assets/1603801027540.png)才有最大值
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								函数在某点的梯度是一个向量，它的方向与方向导数最大值取得的方向一致。
 								其大小正好是最大的方向导数
 								![梯度图](assets/1603681846373.png)
 								> 注意，只有*θ*=0，*cos*导数才能=1，梯度才能取得最大值，也就是那个方向。而沿着反方向就是最小值也就是梯度下降。
 								**求一个具体值，最大梯度方向和最小梯度方向**：
-												Update assets

											
										
										
											4 years ago
+								设![1603800305729](assets/1603800305729.png)求grad u，并求在点M(0,1,-1)处方向导数的最大（小）值
 								![1603800371917](assets/1603800371917.png)
 								![1603800394319](assets/1603800394319.png)
 								![1603800457473](assets/1603800457473.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 注：得出的结果(-1,0,2)，求解：((-1^2) + (0^2) + (-2^2)) = √5，前面都是x的平方，所以结果也需要开根号。
 								### 微积分
 								> 很多的微分积起来
 								如何求A面积的值
 								![1603589223245](assets/1603589223245.png)
 								**以直代曲**：
 								- 对于矩形，我们可以轻松求得其面积，能否用矩形代替曲线形状呢？
 								- 应该用多少个矩形来代替？
 								![四个小矩形和九个小矩形](assets/1603685656784.png)
 								> 越小的矩形，越覆盖，然后求每个矩形的面积。
-												Update assets

											
										
										
											4 years ago
+								**面积的由来**：
-												Update assets

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								- 在ab之间插入若干个点，这样就得到n个小区间。
 								- 每个小矩形面积为：![1603801255298](assets/1603801255298.png)近似得到曲线面积![1603801287337](assets/1603801287337.png)
 								- 当分割无限加细，每个小区间的最大长度为λ，此时λ → 0
 								- 曲边面积：![1603801393606](assets/1603801393606.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								![1603688411669](assets/1603688411669.png)
 								> 注意每个小区间的最大长度为λ，而λ无限接近于0时，那么曲边的面积我们就可以得出，当然这里的近似表达是极限，无限接近的极限。
 								**求和**：
 								我们需要尽可能的将每一个矩形的底边无穷小
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
 								莱布尼茨为了体现求和的感觉，把S拉长了，简写成![1603790307464](assets/1603790307464.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update 必备数学基础.md

											
										
										
											4 years ago
+								![1603765637923](assets/1603765637923.png)
 								> 将上面的所有矩阵求和，∫ = sum，求和的意思
 								**定积分**:
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								当![1603790249795](assets/1603790249795.png)时，总和S总数趋于确定的极限l，则称极限l为函数f(x)在曲线[a,b]上的定积分
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update 必备数学基础.md

											
										
										
											4 years ago
+								![1603765921296](assets/1603765921296.png)
 								### 矩阵和特征
 								**矩阵**：
 								> 拿到数据后，数据就长如下样子，有行有列
 								![1603615232363](assets/1603615232363.png)
 								> 左图√表示A可以到B和C，如右上图，再把√号改成0/1以存储在数据里面，就如右下图
 								**几种特别的矩阵**：
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								![1603790184301](assets/1603790184301.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 上三角部分有值，和下三角部分有值
-												Update assets

											
										
										
											4 years ago
+								![1603790200046](assets/1603790200046.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 对角阵：对角有值且可以是任意值，单位矩阵：对角有值且相同
-												Update assets

											
										
										
											4 years ago
+								![1603790209907](assets/1603790209907.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 同型矩阵：行列相同。矩阵相等：行列相同且里面的值一样
 								### SVD矩阵分解
 								数据行列可能很大，如电商行业100万客户（行），有1万的商品（特征），用一组数据表达就是
 								| 客户ID   | 商品1             | 商品2 | ...  | 商品1万 |
 								| -------- | ----------------- | ----- | ---- | ------- |
 								| xxx1     | 1（表示买过一次） | 0     | ...  | 5       |
 								| xxx2     | 0                 | 1     | ...  | 0       |
 								| ...      | 5                 | 10    | ...  | 0       |
 								| xxx100万 | ...               | ...   | ...  | ...     |
 								那么来一个客户，就是直接多1万列表示，这样的数据是非常稀疏的，我们可以分解成A表100万客户，100个特征，而这100个特征对应这那B表的1万个商品，也就是一个表变成A表和B表，且两者关联。
 								这就需要用到SVD矩阵。
 								### 离散和连续型数据
 								![1603623698138](assets/1603623698138.png)
 								> 离散型是有限多个的，比如10个台阶，只可能是其中的一个台阶，一个确定的结果。
 								>
 								> 连续型则可能是任意的值，没办法确定是哪个台阶。
 								**离散型随机变量概率分布**
 								- 找到离散型随机变量X的所有可能取值
 								- 得到离散型随机变量取这些值的概率
 								  ![1603767423885](assets/1603767423885.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								  ![1603790123695](assets/1603790123695.png)为离散型随机变量的概率函数
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								**连续型随机变量概率分布**
 								- 密度：一个物体，如果问其中一个点的质量是多少？这该怎么求？
 								  由于这个点实在太小了，那么质量就为0了，但是其中的一大块是由
 								  很多个点组成的，这时我们就可以根据密度来求其质量了
 								- X为连续随机变量，X在任意区间(a,b]上的概率可以表示为：
-												Update assets

											
										
										
											4 years ago
+								  ![1603790041924](assets/1603790041924.png)其中f(x)就叫做X的概率密度函数，也可以简单叫做密度
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 还有一种方法是把每个值划分在不同区间，变成离散型，但如果有新数据进来就要再划分区间导致区间越来越多。
 								### 简单随机抽样
 								抽取的样本满足两点
 . 样本X1，X2...Xn是相互独立的随机变量。
-												Update assets

											
										
										
											4 years ago
-												Update 必备数学基础.md

											
										
										
											4 years ago
+. 样本X1，X2...Xn与总体X同分布。
-												Update assets

											
										
										
											4 years ago
+								   ![1603790015180](assets/1603790015180.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								### 极大似然估计
 								> 找到最有可能的那个
-												Update assets

											
										
										
											4 years ago
+. 构造似然函数：L(θ)
-												Update assets

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+. 对似然函数取对数：lnL(θ)
-												Update assets

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+								   > 做log后，logAB = logA + logB，加法更好求
-												Update assets

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+. 求偏导![1603801570385](assets/1603801570385.png)
-												Update assets

											
										
										
											4 years ago
-												Update assets

											
										
										
											4 years ago
+. 求解得到 θ 值
-												Update assets

											
										
										
											4 years ago
 								   ![1603768031523](assets/1603768031523.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
 								> 第一步构造函数；第二步取对数，对数后的值容易取且极值点还是那个位置；第三步求偏导；得到θ
-												Update 必备数学基础.md

											
										
										
											4 years ago
+								**求一个具体的值**：
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update 必备数学基础.md

											
										
										
											4 years ago
+								设 X 服从参数 λ(λ>0) 的泊松分布，x1,x2,...,xn 是来自 X 的一个样本值，求λ的极大似然估计值
-												Update assets

											
										
										
											4 years ago
+								- 因为X的分布律为![1603802012244](assets/1603802012244.png)
 								- 所以 λ 的似然函数为![1603802070909](assets/1603802070909.png)
 								- ![1603802228693](assets/1603802228693.png)
 								- 令![1603802263577](assets/1603802263577.png)
 								- 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png)
-												Update 必备数学基础.md

											
										
										
											4 years ago
-												Update 必备数学基础.md

											
										
										
											4 years ago