数学基础知识整理

##线性代数

线性相关与线性无关

  • avatar

线性相关的判定:根据观察,利用定义即可判断。

线性相关的判断定理:

  • avatar

  • avatar

矩阵的秩

一个向量组A的秩是A的线性无关的向量的个数

如果把一个向量组看成一个矩阵,则向量组的秩就是矩阵的秩

  • avatar

  • avatar

向量的范数

  • avatar

####常用的向量范数

1-范数 $||x||1=\sum{i=1}^{n}|x|$

2-范数 $||x||2=\sqrt{\sum{i=1}^{n}{x_i}^2}$欧式范数

无穷范数 $||x||_n=max|x_i|$

矩阵的范数

avatar

####常用的矩阵范数

avatar

avatar

范数的作用:机器学习的分类问题中,使用范数可以判断两个特征向量和矩阵的相似性

####矩阵的迹

avatar

线性变换及其矩阵表示

avatar

特征值、特征向量

avatar

####特征值的性质

avatar

####特征值和特征向量的求法

avatar

avatar

特征值和特征向量在机器学习中的应用:• 主成分分析• 流行学习• LDA

正交投影

在线性代数和泛函分析中,投影是从向量空间映射到自身的一种线性变换。具体来说,正交投影是指像空间U和零空间W相互正交子空间的投影

从解方程角度看,A x = b 可能无解,因为对任意 的 x , Ax 总是在A的列子空间里,若 向量 b 不在 列空间里,则方程无解。但是我们可以将 b 利用正 交投影矩阵投影到 A 的列子空间里得到正交投影 y, 然后求解A x = y,寻找一个最佳近似解 x。

avatar

二次型

avatar

avatar

二次型补充知识点

avatar

矩阵的QR分解

avatar

SVD奇异值分解

avatar

##微积分

集合的定义

avatar

####集合的表示方法

avatar

####集合的分类

avatar

集合运算

avatar

Venn图

表示集合的另一种形式

avatar

函数定义

avatar

领域的定义

avatar

####函数的极限性质

四则运算

avatar

#####复合函数的极限

avatar

#####保号性

avatar

#####夹逼定理

avatar

#####洛必达法则

avatar

####函数的连续性

avatar

####间断的定义

avatar

avatar

函数的导数

avatar

####导数的常用公式

avatar

导数的性质

#####四则运算

avatar

#####复合函数求导

avatar

导数作用

链式求导法则:神经网络反向传播基础

梯度下降法:最简单的优化方法

函数的微分

avatar

原函数

avatar

不定积分

avatar

avatar

avatar

####不定积分性质

avatar

####不定积分的基本公式

avatar

定积分

avatar

avatar

avatar

avatar

avatar

####定积分的性质

avatar

牛顿-莱布尼兹公式

avatar

avatar

####二重积分

avatar

avatar

avatar

avatar

####导数

avatar

#####标量关于标量X的求导

avatar

#####向量关于标量X的求导

avatar

####矩阵关于标量X的求导

avatar

####标量关于向量x的导数

avatar

####向量关于向量x的导数

avatar

####矩阵关于向量 x 的导数

avatar

####标量关于矩阵的导数

avatar

####向量关于矩阵的导数

avatar

矩阵关于矩阵的导数

avatar

####分子布局法与分母局部法区别

avatar

####Hessian矩阵

avatar

avatar

##概率论基础

####概率论基础

概率论与数理统计是研究什么的?

1
2
3
随机现象:不确定性与统计规律性 
概率论:从数量上研究随机现象的统计规律性的科学
数理统计:从应用角度研究处理随机性数据,建立有效的统计方法,进行统计推理

随机试验

在概率论中,将具有下述三个特点的试验称为随机试验,简称试验。 随机试验常用E表示

1
2
3
1.试验的可重复性 —— 在相同条件下可重复进行;
2.一次试验结果的随机性 —— 一次试验的可能结果不止一个,且试验之前无法确定具体是哪种结果出现;
3.全部试验结果的可知性 —— 所有可能的结果是预先可知的,且每次试验有且仅有一个结果出现。

####样本空间与样本点

avatar

####随机事件

avatar

####事件的性质与运算

事件的本质是集合,集合的一切性质和运算都适用与事件

####频率与概率

avatar

概率的性质

avatar

古典概型

avatar

avatar

几何概型

avatar

avatar

条件概率

avatar

avatar

####条件概率的几何意义

avatar

####加法公式

avatar

####乘法公式

avatar

####排列组合

avatar

####全概率公式

avatar

####离散分布 vs 连续分布

avatar

####伯努利分布

avatar

####二项分布

avatar

####期望

avatar

期望的性质
1
2
3
4
5

1、E (C ) = C
2、E (aX ) = a E (X )
3、E (X + Y ) = E (X ) + E (Y )
4、当X ,Y 相互独立时,E (X Y ) = E (X )E (Y )
期望的数学含义

反应了数据的平均取值情况

####方差

avatar

avatar

####数据归一化

avatar

####高斯分布

avatar

avatar

####分布函数

avatar

avatar

####均匀分布

avatar

avatar

####指数分布

avatar

avatar

####二维随机变量

avatar

####联合分布函数

avatar

avatar

####联合分布列

avatar

####二维连续型随机变量及其密度函数

avatar

####联合密度性质

avatar

avatar

avatar

avatar

####边缘分布

avatar

avatar

avatar

avatar

####多维分布

在机器学习中,一个 样本有多个特征,研究多个特征的概率分布与统计情况

####二维随机变量

avatar

####为什么需要协方差?

avatar

####协方差

avatar

####协方差的性质

avatar

####协方差矩阵

avatar

主成分分析法

#####PCA的意义

avatar

#####PCA的数学模型

avatar

####PCA推导

avatar

avatar

avatar

####PCA实施

avatar

avatar

概率论与信息论

####切比雪夫不等式

avatar

####中心极限定理

avatar

avatar

####关于正态分布计算的补充

avatar

####矩的概念

avatar

avatar

####矩估计

avatar

avatar

####极大似然估计的思想

avatar

####极大似然估计

avatar

avatar

####极大似然估计求法

avatar

avatar

avatar

MLE在机器学习中的应用

参数估计 逻辑回归的参数估计

最大后验估MAP

####先验信息

avatar

####先验分布

avatar

####如何利用先验信息?

在样本少的情况下,如何 加入先验信息? 后验概率

####后验概率

avatar

####最大后验估计

avatar

####贝叶斯法则

avatar

avatar

avatar

####贝叶斯意义

avatar

####贝叶斯公式的密度函数形式

avatar

avatar

####共轭分布

avatar

avatar

avatar

####如何度量信息的多少?

avatar

####自信息量

avatar

####信息熵

avatar

avatar

####交叉熵

avatar

####交叉熵在机器学习中的应用

交叉熵损失函数 衡量两个随机变量之间的相似度

####互信息

avatar

####KL散度

avatar

####KL散度的性质

avatar

avatar

##优化方法

优化方法

所谓最优化问题,指在某些约束条件下,决定某些可选择的变量应该取何值,使所选定的目标函数达到最优的问题。即运用最新科技手段和处理方法,使系统达到总体最优,从而为系统提出 设计、施工、管理、运行的最优方案。

为什么要用优化算法?

1
2
3
求导找函数的最小(大)值不行吗?
考虑:1、多元函数
2、局部最大最小值

####线性规划

avatar

avatar

梯度下降法

avatar

一维函数梯度

avatar

####梯度下降法

avatar

avatar

avatar

####梯度法的迭代过程

avatar

####批量梯度下降BGD

avatar

avatar

####随机梯度下降SGD

avatar

avatar

####小批量梯度下降法MBGD

avatar

avatar

牛顿法

求解无约束极值问题得最古老算法之一,已发展成为一类算法:Newton型方法。
在局部,用一个二次函数近似代替目标函数 f(x),然后用近似函数的极小 点作为f(x) 的近似极小点。

avatar

avatar

avatar

avatar

avatar

avatar

avatar

拟牛顿法

拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷,它使用 正定矩阵来近似Hessian矩阵的逆,从而简化了运算的复杂度。 拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化, 构造一个目标函数的模型使之足以产生超线性收敛性。 这类方法大大优于最速下降法,尤其对于困难的问题。另外,因为拟牛顿法不需要二阶导数的 信息,所以有时比牛顿法更为有效。

用不包含二阶导数的矩阵近似Hesse*矩阵的*

avatar

avatar

####常用的拟牛顿法

avatar

共轭方向法

共轭方向法是介于最速下降法与牛顿法之间的一类方法。

它仅需利用一阶导数信息,但克服了最速下降法收敛慢的缺点,又避免了存储和 计算牛顿法所需要的二阶导数信息。

avatar

avatar

####共轭方向法的几何意义

avatar

avatar

avatar

共轭梯度法

共轭梯度法(conjugate gradient method, CG)是以共轭方向(conjugate direction)作为 搜索方向的一类算法。

⚫ CG法是由Hesteness和Stiefel于1952年为求解线性方程组而提出的。后来用于求解无约束最优 化问题,它是一种重要的数学优化方法。这种方法具有二次终止性

CG的基本思想是把共轭性与最速下降法相结合,利用已知迭代点的梯度方向 构造一组共轭方向,并沿着此组方向进行搜索,求出目标函数的极小点。

什么是二次终止性?

如果某算法用于求解目标函数为二次函数的无约束问题时,只需要经过有限迭代就能 达到最优解,则该算法具有二次终止性。
共轭梯度法就有二次终止性

avatar

avatar

avatar

avatar

####动量梯度下降法法Momentum

avatar

avatar

####均方根优化法RMSp

avatar

avatar

####自适应矩估计法Adam

avatar

avatar

####学习率衰减

avatar

avatar

####早停

avatar

核心思想:

如果训练数轮后准确率(损失函数)没有上升(下降),就停止训练

应用场景:

大批量数据,训练时间长

####局部最优值

avatar

####鞍点问题

avatar

文章目录
  1. 1. 线性相关与线性无关
  2. 2. 矩阵的秩
  3. 3. 向量的范数
  4. 4. 矩阵的范数
  5. 5. 线性变换及其矩阵表示
  6. 6. 特征值、特征向量
  7. 7. 正交投影
  8. 8. 二次型
  9. 9. 矩阵的QR分解
  10. 10. SVD奇异值分解
  11. 11. 集合的定义
  12. 12. 集合运算
  13. 13. Venn图
  14. 14. 函数定义
  15. 15. 领域的定义
    1. 15.1. 四则运算
  16. 16. 函数的导数
  17. 17. 导数的性质
    1. 17.1. 导数作用
  18. 18. 函数的微分
  19. 19. 原函数
  20. 20. 不定积分
  21. 21. 定积分
  22. 22. 矩阵关于矩阵的导数
  23. 23. 概率的性质
  24. 24. 古典概型
  25. 25. 几何概型
  26. 26. 条件概率
    1. 26.1. 期望的性质
    2. 26.2. 期望的数学含义
  27. 27. 主成分分析法
  • 概率论与信息论
    1. 1. MLE在机器学习中的应用
    2. 2. 最大后验估MAP
    3. 3. 优化方法
    4. 4. 梯度下降法
    5. 5. 一维函数梯度
    6. 6. 牛顿法
    7. 7. 拟牛顿法
    8. 8. 共轭方向法
    9. 9. 共轭梯度法
  • |