# 必备数学基础 ### 函数 **函数的定义**: - y = f(x) 其中x是自变量,y是因变量。y随着x变化 **几种特性**: 奇偶性、周期性、单调性(如下图) ![1603799800751](assets/1603799800751.png) **极限**: - 按照一定次数排列的数:x1,x2,...,xn,其中xn叫做通项 - 对于数列{xn},当n无限增大时,其通项无限接近于一个常数A,则称该数列以A为极限或称数列收敛于A。 **导数**: - 都有对应的结果,不用死记硬背,查就行了,如(C)' = 0 或者(sin x)' = cos x ### 方向导数(引出梯度) > 在函数定义域的内点,对某一*方向*求导得到的*导数*。 > > 常规数学中,所有问题都有一个解。而机器学习当中,求解很难或者没有解,我们只能不断逼近这个最优解。 **问题一**:蚂蚁沿着什么方向跑路不被火烧,能活下来(二维平面) ![有个坐标轴x,y,(0,0)处着火,蚂蚁应该怎么走](assets/1603799891825.png) > 蚂蚁沿着任意方向都可以活,最优的是沿着对角方向L,z是函数变化,也就是图中的φ。 **三维平面的方向导数公式**: ![1603799859450](assets/1603799859450.png) **求一个方向导数具体的值**: 求函数![1603800015017](assets/1603800015017.png)在点P(1,0)处,沿着从点P(1,0)到点Q(2,-1)的方向的方向导数。 ![1603800127515](assets/1603800127515.png) 所求方向导数 ![1603800171837](assets/1603800171837.png) ### 梯度 > 是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此*梯度*的方向)变化最快,变化率最大(为该*梯度*的模)。 函数:z = f(x,y)在平面域内具有连续的一阶偏导数,对于其中每个点P(x,y)都有向量![1603800802065](assets/1603800802065.png)则其称为函数点P的梯度。 ![1603800856376](assets/1603800856376.png) ![1603800888757](assets/1603800888757.png)是方向L上的单位向量 ![1603800922280](assets/1603800922280.png) ![1603800960729](assets/1603800960729.png) > 根据上面的梯度导数,和方向导数的区别就在多了个*cosθ*,*θ*充当梯度和方向导数之间的关系 只有当![1603801027540](assets/1603801027540.png)才有最大值 函数在某点的梯度是一个向量,它的方向与方向导数最大值取得的方向一致。 其大小正好是最大的方向导数 ![梯度图](assets/1603681846373.png) > 注意,只有*θ*=0,*cos*导数才能=1,梯度才能取得最大值,也就是那个方向。而沿着反方向就是最小值也就是梯度下降。 **求一个具体值,最大梯度方向和最小梯度方向**: 设![1603800305729](assets/1603800305729.png)求grad u,并求在点M(0,1,-1)处方向导数的最大(小)值 ![1603800371917](assets/1603800371917.png) ![1603800394319](assets/1603800394319.png) ![1603800457473](assets/1603800457473.png) > 注:得出的结果(-1,0,2),求解:((-1^2) + (0^2) + (-2^2)) = √5,前面都是x的平方,所以结果也需要开根号。 ### 微积分 > 很多的微分积起来 如何求A面积的值 ![1603589223245](assets/1603589223245.png) **以直代曲**: - 对于矩形,我们可以轻松求得其面积,能否用矩形代替曲线形状呢? - 应该用多少个矩形来代替? ![四个小矩形和九个小矩形](assets/1603685656784.png) > 越小的矩形,越覆盖,然后求每个矩形的面积。 **面积的由来**: - 在ab之间插入若干个点,这样就得到n个小区间。 - 每个小矩形面积为:![1603801255298](assets/1603801255298.png)近似得到曲线面积![1603801287337](assets/1603801287337.png) - 当分割无限加细,每个小区间的最大长度为λ,此时λ → 0 - 曲边面积:![1603801393606](assets/1603801393606.png) ![1603688411669](assets/1603688411669.png) > 注意每个小区间的最大长度为λ,而λ无限接近于0时,那么曲边的面积我们就可以得出,当然这里的近似表达是极限,无限接近的极限。 **求和**: 我们需要尽可能的将每一个矩形的底边无穷小 莱布尼茨为了体现求和的感觉,把S拉长了,简写成![1603790307464](assets/1603790307464.png) ![1603765637923](assets/1603765637923.png) > 将上面的所有矩阵求和,∫ = sum,求和的意思 **定积分**: 当![1603790249795](assets/1603790249795.png)时,总和S总数趋于确定的极限l,则称极限l为函数f(x)在曲线[a,b]上的定积分 ![1603765921296](assets/1603765921296.png) ### 矩阵和特征 **矩阵**: > 拿到数据后,数据就长如下样子,有行有列 ![1603615232363](assets/1603615232363.png) > 左图√表示A可以到B和C,如右上图,再把√号改成0/1以存储在数据里面,就如右下图 **几种特别的矩阵**: ![1603790184301](assets/1603790184301.png) > 上三角部分有值,和下三角部分有值 ![1603790200046](assets/1603790200046.png) > 对角阵:对角有值且可以是任意值,单位矩阵:对角有值且相同 ![1603790209907](assets/1603790209907.png) > 同型矩阵:行列相同。矩阵相等:行列相同且里面的值一样 ### SVD矩阵分解 数据行列可能很大,如电商行业100万客户(行),有1万的商品(特征),用一组数据表达就是 | 客户ID | 商品1 | 商品2 | ... | 商品1万 | | -------- | ----------------- | ----- | ---- | ------- | | xxx1 | 1(表示买过一次) | 0 | ... | 5 | | xxx2 | 0 | 1 | ... | 0 | | ... | 5 | 10 | ... | 0 | | xxx100万 | ... | ... | ... | ... | 那么来一个客户,就是直接多1万列表示,这样的数据是非常稀疏的,我们可以分解成A表100万客户,100个特征,而这100个特征对应这那B表的1万个商品,也就是一个表变成A表和B表,且两者关联。 这就需要用到SVD矩阵。 ### 离散和连续型数据 ![1603623698138](assets/1603623698138.png) > 离散型是有限多个的,比如10个台阶,只可能是其中的一个台阶,一个确定的结果。 > > 连续型则可能是任意的值,没办法确定是哪个台阶。 **离散型随机变量概率分布** - 找到离散型随机变量X的所有可能取值 - 得到离散型随机变量取这些值的概率 ![1603767423885](assets/1603767423885.png) ![1603790123695](assets/1603790123695.png)为离散型随机变量的概率函数 **连续型随机变量概率分布** - 密度:一个物体,如果问其中一个点的质量是多少?这该怎么求? 由于这个点实在太小了,那么质量就为0了,但是其中的一大块是由 很多个点组成的,这时我们就可以根据密度来求其质量了 - X为连续随机变量,X在任意区间(a,b]上的概率可以表示为: ![1603790041924](assets/1603790041924.png)其中f(x)就叫做X的概率密度函数,也可以简单叫做密度 > 还有一种方法是把每个值划分在不同区间,变成离散型,但如果有新数据进来就要再划分区间导致区间越来越多。 ### 简单随机抽样 抽取的样本满足两点 1. 样本X1,X2...Xn是相互独立的随机变量。 2. 样本X1,X2...Xn与总体X同分布。 ![1603790015180](assets/1603790015180.png) ### 极大似然估计 > 找到最有可能的那个 1. 构造似然函数:L(θ) 2. 对似然函数取对数:lnL(θ) > 做log后,logAB = logA + logB,加法更好求 3. 求偏导![1603801570385](assets/1603801570385.png) 4. 求解得到 θ 值 ![1603768031523](assets/1603768031523.png) > 第一步构造函数;第二步取对数,对数后的值容易取且极值点还是那个位置;第三步求偏导;得到θ **求一个具体的值**: 设 X 服从参数 λ(λ>0) 的泊松分布,x1,x2,...,xn 是来自 X 的一个样本值,求λ的极大似然估计值 - 因为X的分布律为![1603802012244](assets/1603802012244.png) - 所以 λ 的似然函数为![1603802070909](assets/1603802070909.png) - ![1603802228693](assets/1603802228693.png) - 令![1603802263577](assets/1603802263577.png) - 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png)