@ -1,5 +1,3 @@
# 必备数学基础
### 高等数学基础
@ -1391,3 +1389,53 @@ X轴上的特征表示归一化后, 是对某个特征增强10倍, 其它不
##### 基本概念:
**1、分布函数( Distribution Function)**
分布函数是指随机变量小于某个值的函数,即它和累积密度函数( Cumulative Density Function).是同一个意思对于连续型分布来说,分布函数或者累积密度函数是概率密度函数( (Probability Density Functio的积分对离散型分布来说,分布函数或者累积密度函数是个阶梯状的分段函数。
**2、概率密度函数( Probability Density Function)**
仅针对连续型变量定义,可以理解成连续型随机变量的似然函数。它是连续型随机变量的分布函数的一阶导数,即变化率。如一元髙斯分布的密度函数为

**3、概率质量函数( Probability Mass Function)**
仅针对离散型随机变量定义,它是离散型随机变量在各个特定值上取值的概率。注意,连续型随机变量的概率密度函数虽然与离散型随机变量的概率质量函数对应,但是前者并不是概率,前者需要在某个区间进行积分后表示概率,而后者是特定值概率。连续型随机变量没有在某一点的概率的说法(因为毎一点的概率密度函数都是0)。假设X是抛均匀硬币的结果反面取值为0,正面取值为1。那么其概率质量函数为

**4、似然函数( Likelihood Function)**
简称似然,是指在某个参数下,关于数据的函数。它在统计推断问题中极其重要。一般表示为:

由于我们般假设所有的数据都是独立同分布的,因此,似然的计算是所有数据的密度函数的乘积,这在计算中非常麻烦。所以我们般使用Log-似然来计算。
**5、边缘分布( Marginal Distribution)**
在统计理论中, 边绿分布指—组随机变量中, 只包含其中部分变量的概率分布。例如随机变量Ⅹ 和Y,X的边緣分布是(离散型随机变量):

连续型随机变量的边缘分布

##### 概率:

什么是概率这个问题需要好好想一想了。咱们来抛硬币吧,大家的第一反应就是五五开。为什么会这样觉得呢? 因为我做了很多少次试验,其中基本是一半半,这就说明了古典统计学的思想,概率是基于大量实验的,也就是大数定理。对于硬币来说我们可以来试一试,那有些事没办法进行试验该怎么办呢? 今天下雨的概率50%, 日本某城市下个月发生地震的概率30%,这些概率怎么解释呢? 日本在100次试验中, 地震了30次? 这很难玩啊! 所以古典统计学就无法解释了。这只是其一, 再比如说, 你去赌场了, 你问了10个人赢没赢钱,他们都说赢了,按照古典统计学思想,咱们是不是稳赢啊
**世界观的区别:**
统计学派:
- 观察到的数据被认为是随机的,因为它们是随机过程的实现,因此每次观察系统时都会发生变化。
- 模型参数认为是固定的。参数的值是未知的,但它们是固定的,因此我们对它们进行条件设置。