总结:机器学习中的基本数学知识

原创
2021/01/29 16:21
阅读数 4.5K

注:本文的代码是使用Python 3写的。

线性代数(linear algebra)

第一公式

f(x)=xwT+b
这是在机器学习中,最常见的公式。我把这个称为机器学习的第一公式,实际上就是线性分类函数(linear classifier)。
训练分类器的目标就是求出 (w,b)(w,b)
其中:
xx  是一个一行矩阵   [[x1,x2,...,xn]][[x1,x2,...,xn]]
ww  是一个一行矩阵   [[w1,w2,...,wn]][[w1,w2,...,wn]]
xx    ww  的维度相同。
bb  是一个数。
xwT=ni=1xiwixwT=∑i=1nxiwi,称为点积(dot product)。

有时,我们也会见到这个公式表示为类似下面的样子,它们的基本含义都是一样的。
f(x)=wx+bf(x)=wx+b
f(x)=wTx+bf(x)=wTx+b
f(x)=w⃗ x⃗ +bf(x)=w→⋅x→+b

注:这里ww表示为一个一维数组(或者向量、矢量(vector)) [x1,x2,...,xn][x1,x2,...,xn]
注:一维数组:在数学上,可以理解为向量,表示多维空间上的一个点。
注:由于在线性代数中,矩阵乘法abbaab≠ba,所以对于表达式wTxwTx,严格地说,要把矢量(向量)看做一列的矩阵(而不是一行的矩阵),才符合数学上的定义。
注:表达式w⃗ x⃗ w→⋅x→wxwx是正确的,因为wwxx是矢量,这个符合矢量计算的定义。

矩阵的操作

由于,这篇文章是从数学的角度写的,所以我们先关注矩阵的操作。

换位(transpose)

矩阵的换位操作:将矩阵中的数按照对角线交换。
数学公式:wTwT
代码示例:

# Matrix Transpose
m = numpy.mat([[1, 2], [3, 4]])
print("Matrix.Transpose:")
print(m.T)
''' Output:
Matrix.Transpose:
[[1 3]
 [2 4]]
'''

矩阵乘法

  • 矩阵相乘的含义
    如果一斤苹果10元,5斤苹果多少元?答案是:105=5010∗5=50
    如果一斤苹果10元,一斤梨20元,5斤苹果2斤梨一共多少元?
    答案是:
[1020][52]=10×5+20×2=90(2)(2)[1020][52]=10×5+20×2=90

 

我们可以看出矩阵相乘的约束:乘数1的列数要和乘数2的行数相等

  • 矩阵乘法不满足交换律
m1m2m2m1(3)(3)m1⋅m2≠m2⋅m1

我们再看看交换乘数后,计算的结果:

[1020][52]=[10×520×510×220×2]=[501002040](4)(4)[1020][52]=[10×510×220×520×2]=[502010040]

比如:数2020的含义是2斤苹果多少钱。

举例说明它们的不同之处:

m1=[12](5)(5)m1=[12]
m2=[1020](6)(6)m2=[1020]

m1m2m1⋅m2的计算方法是:

 

m1m2=[12][1020]110+220=[50](7)(7)m1⋅m2=[1020][12]1∗10+2∗20=[50]

 

m2m1m2⋅m1的计算方法是:

 

m2m1=102011012012102202=[10202040](8)(8)m2⋅m1=121010∗110∗22020∗120∗2=[10202040]

 

  • 计算公式
    矩阵相乘是:用矩阵1的每一行和矩阵2的每一列的点积,得到一个矩阵。
    lml∗m 的矩阵乘以 mnm∗n 的矩阵,形成一个lnl∗n 的矩阵。

 

xy=[x1xn]y1yn=[ni=1xiyi]xy=x1xm[y1yn]=x1y1xmy1x1ynxmynxy=x11x21xm1x1nx2nxmny11y21yn1y1qy2qynq=ni=1x1iyi1ni=1xmiyi1ni=1x1iyiqni=1xmiyiq(9)(9)x⋅y=[x1⋯xn][y1⋯yn]=[∑i=1nxiyi]x⋅y=[x1⋯xm][y1⋯yn]=[x1y1⋯x1yn⋯⋯⋯xmy1⋯xmyn]x⋅y=[x11⋯x1nx21⋯x2n⋯⋯⋯xm1⋯xmn][y11⋯y1qy21⋯y2q⋯⋯⋯yn1⋯ynq]=[∑i=1nx1iyi1⋯∑i=1nx1iyiq⋯⋯⋯∑i=1nxmiyi1⋯∑i=1nxmiyiq]

 

  • 代码演示:
# Matrix Multiplication
print("Matrix Multiplication")
a = numpy.mat([1, 2])
b = numpy.mat([[10], [20]])
print(a * b)
print(a.T * b.T)

a = numpy.mat([[1, 2], [3, 4]])
b = numpy.mat([[10, 20], [30, 40]])
print(a * b)

''' Output:
[[50]]
[[10 20]
 [20 40]]
[[ 70 100]
 [150 220]]
'''

矩阵的各种乘积

操作 数学符号 Python Demo
点积(dot product) abab a.dot(b)
numpy.dot(a, b)
AB=(1,2)(1020)=110+220=50(10)(10)AB=(1,2)(1020)=1∗10+2∗20=50
内积(inner product) aba⋅b
a,b⟨a,b⟩
numpy.inner(a, b)
ab=abT(11)(11)a⋅b=abT
外积(outer product) aba⊗b numpy.outer(a, b)
AB=(12)(1020)=(110210120220)=(10202040)(12)(12)A⊗B=(12)(1020)=(1∗101∗202∗102∗20)=(10202040)
元素积(element-wise product, point-wise product, Hadamard product ) aba∘b
aba⊙b
numpy.multiply(a, b)
AB=(1324)(1020)=(110310220420)=(10304080)(13)(13)A⊙B=(1234)(1020)=(1∗102∗203∗104∗20)=(10403080)

注:Python中,矩阵数据可以表示为matrix和ndarray两种类型。
这两种类型的操作非常接近,但是有细微的不同。
ndarray * operation :element-wise product.
matrix * operation :dot product.
numpy.multiply for ndarray :element-wise product. same.
numpy.multiply for matrix :element-wise product. same.
numpy.dot for ndarray : inner product. 1-d array.
numpy.dot for matrix :dot product. shape determined by values.
numpy.inner for ndarray :inner product. 1-d array.
numpy.inner for matrix :inner product. shape determined by values.
numpy.outer for ndarray :outer product. same.
numpy.outer for matrix :outer product. same.

内积

英文: inner product, scalar product。
矢量的降维运算,变成一个数。
矩阵的内积是每行每列的内积的矩阵。

 

xy=x,y=ni=1xiyi(14)(14)xy=⟨x,y⟩=∑i=1nxiyi

 

x = numpy.array([1, 2])
y = numpy.array([10, 20])
print("Array inner:")
print(numpy.inner(x, y))
''' Output:
Array inner:
50
'''

x = numpy.mat([[1, 2], [3, 4]])
y = numpy.mat([10, 20])
print("Matrix inner:")
print(numpy.inner(x, y))
''' Output:
Matrix inner:
[[ 50]
 [110]]
'''

外积

矢量的升维运算, mm维矢量和nn维矢量的外积是mnm∗n为矩阵。
矩阵的并集运算, a1a2a1∗a2维矢量和b1b2b1∗b2维矩阵的外积是(a1a2)(b1b2)(a1∗a2)∗(b1∗b2)为矩阵。

 

xy=x1x2xmx1nx2nxmny1y2ypy1qy2qxpq=x1y1x1ny1x2y1xmny1x1y1qx1ny1qx2y1qxmny1qx1y2x1ny2x2y2xmny2x1ypqx1nypqx2ypqxmnypq(15)(15)x⊗y=[x1⋯x1nx2⋯x2n⋯⋯⋯xm⋯xmn][y1⋯y1qy2⋯y2q⋯⋯⋯yp⋯xpq]=[x1y1⋯x1y1qx1y2⋯x1ypq⋯⋯⋯⋯⋯⋯x1ny1⋯x1ny1qx1ny2⋯x1nypqx2y1⋯x2y1qx2y2⋯x2ypq⋯⋯⋯⋯⋯⋯xmny1⋯xmny1qxmny2⋯xmnypq]

 

x = numpy.array([1, 3])
y = numpy.array([10, 20])
print("Array outer:")
print(numpy.outer(x, y))
''' Output:
Array outer:
[[10 20]
 [30 60]]
'''

x = numpy.mat([[1, 2], [3, 4]])
y = numpy.mat([10, 20])
print("Matrix outer:")
print(numpy.outer(x, y))
''' Output:
Matrix outer:
[[10 20]
 [20 40]
 [30 60]
 [40 80]]
'''

注:有没有发现matrix outer 是vector outer的并集。

元素积(element-wise product/point-wise product/Hadamard product

  • 计算公式

 

xy=[x1xn][y1yn]=[x1y1xnyn]xy=[x1xn]y1ym=x1y1x1ymxny1xnymxy=x11xm1x1nxmny11ym1y1nxn=x11y11xm1ym1x1ny1nxmnynn(16)(16)x⋅y=[x1⋯xn][y1⋯yn]=[x1y1⋯xnyn]x⋅y=[x1⋯xn][y1⋯ym]=[x1y1⋯xny1⋯⋯⋯x1ym⋯xnym]x⋅y=[x11⋯x1n⋯⋯⋯xm1⋯xmn][y11⋯y1n⋯⋯⋯ym1⋯xn]=[x11y11⋯x1ny1n⋯⋯⋯xm1ym1⋯xmnynn]

 

x = numpy.array([1, 3])
y = numpy.array([10, 20])
print("Array element-wise product:")
print(x * y)
''' Output:
Array element-wise product:
[10 60]
'''

x = numpy.mat([[1, 2], [3, 4]])
y = numpy.mat([[10, 20],[30, 40]])
print("Matrix Add :")
print(x + y)
''' Output:
Matrix Add :
[[11 22]
 [33 44]]
'''

低等数学

  • 求总和公式
    这个大家应该都知道。

 

i=1Nxi=x1+x2++xn(17)(17)∑i=1Nxi=x1+x2+⋯+xn

 

  • 求总积公式

 

i=1Nxi=x1×x2××xn(18)(18)∏i=1Nxi=x1×x2×⋯×xn

 

  • 对数
    • 对数的含义:
      1. 求数的长度。
      2. 将乘法转变成加法。
      3. 解决下溢出问题:由于太多很小的数相乘造成的问题。
    • 数学表达

 

log(x)=log10xlog2xln(x)(19)(19)log(x)=log10⁡xlog2⁡xln(x)

 

由于不同底的对数的结果是等比关系,所以,有时底数是谁,是无所谓的。

  • 等比
    aa等比于bb。可用于算法复杂度计算。

 

a bab(20)(20)a ba∝b

 

  • 下取整(floor)和上取整(ceil)

 

floor: xceil: x(21)(21)floor: ⌊x⌋ceil: ⌈x⌉

 

几何

范数(norm)

  • L1范数
    w1‖w‖1 : L1范数,也就是各项目绝对值的和。

 

w1=ni=1|wi|(22)(22)‖w‖1=∑i=1n|wi|

 

  • L2范数
    w or w2‖w‖ or ‖w‖2 : L2范数,也就是各项目平方和的平方根。

 

w=ni=1w2i(23)(23)‖w‖=∑i=1nwi2

 

拉格朗日乘子法和KKT条件

如果方程式f(x)=wx+bf(x)=wx+b有不等式约束条件,拉格朗日乘子法和KKT条件提供了一种方法,可以计算(w,b)(w,b)

 

L(w,b,α)(24)(24)L(w,b,α)

 

关于拉格朗日乘子法和KKT条件,请看:
深入理解拉格朗日乘子法(Lagrange Multiplier)和KKT条件

微分(differential)

表示形式

 

f(x)or partial differential in Leibniz notation:f(x)xdydxor:f(x)x : the gradient of f at x(25)(25)f′(x)or partial differential in Leibniz notation:∂f(x)∂xdydxor:∇f(x)∇x : the gradient of f at x

 

含义

 

df(x)dx=limh0f(x+h)f(x)hwhereddx is an operation of f(x)(26)(26)df(x)dx=limh→0f(x+h)−f(x)hwhereddx is an operation of f(x)

 

数学含义是在xx点上,f(x)f(x)的变化除以xx的变化。
数学上可以认为是:斜率
机器学习中指的是:梯度。
计算梯度后,乘以一个比值(步长),可以得到矫正值,用于反向传播(矫正)权值。
partial differential:偏微分,表示函数在某个维度上的微分。这时,可将其它维度看做常量。

法则

法则 微分 偏微分
和法则(sum rule) (f+g)=f+g(f+g)′=f′+g′
(u+v)x=ux+vx(27)(27)∂(u+v)∂x=∂u∂x+∂v∂x
积法则(product rule) (fg)=fg+fg(f⋅g)′=f′⋅g+f⋅g′
(uv)x=uvx+vux(28)(28)∂(u⋅v)∂x=u⋅∂v∂x+v⋅∂u∂x
链式法则(chain rule of differentiation) (f(g(x)))=f(g(x))g(x)(f(g(x)))′=f′(g(x))g′(x)
zx=zyyx(29)(29)∂z∂x=∂z∂y⋅∂y∂x

常见导数公式

f(x) f'(x)
axax aa
xnxn nxn1nxn−1
x+cx+c 11
exex exex
ln(x)ln(x) 1x1x

统计学/概率论

  • 贝叶斯公式(Bayes formula)

 

p(A|B)=p(B|A)p(A)p(B)wherep(A) : the probability of observing event A.p(B) : the probability of observing event B.p(A|B) : the probability of observing event A given that B is true.p(B|A) : the probability of observing event B given that A is true.(30)(30)p(A|B)=p(B|A)p(A)p(B)wherep(A) : the probability of observing event A.p(B) : the probability of observing event B.p(A|B) : the probability of observing event A given that B is true.p(B|A) : the probability of observing event B given that A is true.

 

比如:在判断垃圾邮件的算法中:
P(A) : 所有邮件中,垃圾邮件的概率。
P(B) : 出现某个单词的概率。
P(B|A) : 垃圾邮件中,出现某个单词的概率。
P(A|B) : 出现某个单词的邮件,是垃圾邮件的概率。

信息论

香农熵(Shannon Entropy)

  • 熵的定义
    在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。
    熵定义为信息的期望值。
    熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望。
    熵的单位通常为比特, bit 或者sh(annon) (基于2),但也用nat(基于自然对数)、Hart(基于10)计量,取决于定义用到对数的底。
    熵的单位不重要。(因为是求对数,所以是等比的。不理解这句话也无所谓。)
    熵值是一个>=0的值。
    如果为0,则表明结果可以准确预测。从下面的公式可以看出,其概率为1.

  • 熵的特征

    • 发生概率越小的信息,熵值越大。
    • 常识的熵为0。
    • 从计算损失的角度来说:熵值越大,说明损失越大。
  • 期望值
    在概率论和统计学中,一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是试验中每次可能结果的概率乘以其结果的总和。
    比如掷骰子, 其点数的期望值是3.5:
    E(x)=11/6+12/6+13/6+14/6+15/6+16/6=3.5E(x)=1∗1/6+1∗2/6+1∗3/6+1∗4/6+1∗5/6+1∗6/6=3.5

  • 通俗的理解
    信息熵是:

    • 各个 (值的概率 * 值的长度) 的总和。
  • 数据集的信息熵的计算公式

 

H(X)=E[I(X)]=E[lnP(X)]=i=1nP(xi)I(xi)=i=1nP(xi)logP(xi)(31)(32)(33)(34)whereH(X):XE():I():X:Xxi:XI(xi)xi(informationself).I(xi)=log(P(xi))P(xi) : x_ixprobability mass functionP(xi)=count(xi)/len(X).(31)H(X)=E[I(X)](32)=E[−lnP(X)](33)=∑i=1nP(xi)I(xi)(34)=−∑i=1nP(xi)log⁡P(xi)whereH(X):数据集合X的信息熵值。E():求期望值。I():求信息值(惊奇值)。X:数据集合X。xi:数据集合X的标签的一个枚举值。I(xi):xi的资讯量(informationself).I(xi)=−log(P(xi))P(xi) : 发生x_i的概率。x的机率质量函数(probability mass function)。P(xi)=count(xi)/len(X).

 

  • 熵的作用
    • 计算损失(Loss function)
      用于调整梯度递减的步长。(本次熵(损失)比上次熵(损失)大,说明步长太大了。)
    • 用于决策树
      熵越大,说明特征(feature)的划分数据能力越强。

博弈论

  • 倾向关系(preference relation)
    描述了玩家的倾向,xyx⪰y意味着“x至少和y一样好”。

不知道放到哪儿

  • 求最大化参数
    数学表示
    argmaxcP(c)argmaxcP(c)
    解释
    可以用于返回一个可能性对大的分类。
    返回当P(c)为最大值时c的值。

例如:

 

c{1,2}P(1)=0.9P(2)=0.1argmaxcP(c)=1(35)(35)c∈{1,2}P(1)=0.9P(2)=0.1∴argmaxcP(c)=1

 

  • 返回最大值
    数学表示
    maxaAP(a)maxa∈AP(a)
    解释
    在所有aAa∈A的计算中,返回最大值P(a)P(a)

  • 约束条件(Subject to)
    数学表示
    y=2x+1,s.t. x>0y=2x+1,s.t. x>0
    解释
    当约束条件x>0x>0,成立时,有y=2x+1y=2x+1

  • 定义上相等
    数学表示
    ABA≐B
    解释
    A的定义为B。

  • 2补数(2's complement)
    一种使用2进制表示有符号数的方法。
    第一位为符号位,
    如果是0,则记做0;
    如果为1,则记做2n1, n is the size of the number−2n−1, n is the size of the number
    例如: 0010为2; 1010为-6。

机器学习

激活函数

请看我的另外一个博文:
神经网络学习笔记 - 激活函数的作用、定义和微分证明

损失函数

请看我的另外一个博文:
神经网络学习笔记 - 损失函数的定义和微分证明

附录

希腊字母的含义和发音

  大写 小写 English 发音 中文 含义
1 Α α alpha a:lf 阿尔法  
2 Β β beta bet 贝塔  
3 Γ γ gamma ga:m 伽马  
4 Δ δ delta delt 德尔塔 δ: delta value,偏差值
5 Ε ε epsilon ep'silon 伊普西龙  
6 Ζ ζ zeta zat 截塔  
7 Η η eta eit 艾塔  
8 Θ θ thet θit 西塔  
9 Ι ι iot aiot 约塔  
10 Κ κ kappa kap 卡帕  
11 λ lambda lambd 兰布达  
12 Μ μ mu mju  
13 Ν ν nu nju  
14 Ξ ξ xi ksi 克西 ξ: slack variable,松弛变量
15 Ο ο omicron omik'ron 奥密克戎  
16 π pi pai π: 圆周率
17 Ρ ρ rho rou  
18 σ sigma 'sigma 西格马  
19 Τ τ tau tau  
20 Υ υ upsilon jup'silon 宇普西龙  
21 Φ φ phi fai 佛爱  
22 Χ χ chi phai  
23 Ψ ψ psi psai 普西  
24 Ω ω omega o'miga 欧米伽  

松弛变量(slack variable):在SVM中,为了处理异常点(跑到另一个分类中的点),设定的容忍值。

数学符号的含义和发音

  大写 小写 English 发音 中文 含义
1   partial - 偏分 偏分
1   infinity - 无穷 无穷

参照

 

 

 

 

 

 

 

原文链接:机器学习中的基本数学知识

展开阅读全文
打赏
0
11 收藏
分享
加载中
公式比较乱呀,看来只能在博客园看了
2021/02/01 23:16
回复
举报
公式排版有点乱,只能看中文字感受一下
2021/02/01 13:45
回复
举报
更多评论
打赏
2 评论
11 收藏
0
分享
返回顶部
顶部