《数学之美》—统计语言模型

原创
2017/07/29 11:26
阅读数 27

摘要和理解:

  1. S表示一个有意义的句子,由一连串特定序列的词w1,w2,w3...,wn组成,n表示句子的长度。

        S出现的概率: P(S) = P(w1,w2,w3...,wn)

              条件概率—P(S) = P(w1) * P(w2|w1) * P(w3|w1,w2)...*P(wn|w1,w2...,wn-1)

      马尔科夫假设—P(S) = P(w1) * P(w2|w1) * P(w3|w2)...P(wi|wi-1)*P(wn|wn-1)         ——二元模型

              P(wi|wi-1) = P(wi,wi-1)|P(wi-1)  P(wi,wi-1)-联合概率 P(wi-1)-边缘概率

    2.N元模型

    3.模型的训练-使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练。统计语言的零概率问题-不平滑

    4.古德-图灵估计:对于没有看见的事件,我们不能认为它发生的概率就是零,因此我们从概率的总量中,分配一个很小的比例给这些没有看见的事件。

        

                                               

 

 

 

 

   5.训练数据-语料库的选取:噪音高低、过滤

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部