文档章节

数学之美札记:贾里尼克和现代语言处理

Realfighter
 Realfighter
发布于 2015/06/09 17:16
字数 1484
阅读 822
收藏 5

    在之前的札记中,尤其是统计语言模型中,我们常提到贾里尼克的名字,弗里德里克·贾里尼克博士是成功将数学原理应用于自然语言处理领域的大师。


    贾里尼克博士生于1932年11月18日,卒于2010年9月14日。他生于捷克,少年时经历了二战,父亲是名医生,战争期间死在了集中营,1946年母亲带着全家移民美国。


    贾里尼克最初的梦想是成为一名律师,为其父亲辩护,移民美国后,希望子承父业,理想是成为医生,他想进哈佛大学医学院,但他无力承担8年的学费(4年本科加上4年医学院教育)。而恰恰麻省理工提供了他一份全额奖学金(为东欧移民设的),贾里尼克选择了麻省理工学电机工程。由此开启了他迈向成功的第一步。


    在麻省理工,他遇到了很多世界级的大师,包括信息量的鼻祖香农博士、语言学大师雅各布森(提出了著名的通信六要素)。后来贾里尼克的太太从捷克来到美国,在哈佛大学求学,贾里尼克经常到哈佛旁听。在那里,他经常去听伟大的语言学家乔姆斯基的课。这三位大师对贾里尼克后来的研究方向——利用信息论解决语言问题产生了重要影响。


    每一个搞语音识别和语言处理的人都熟知这样一句话:我每开除一名语言学家,我的语音识别系统识别率就会提高一点。这句话来源于这样一则故事:贾里尼克从麻省理工获得博士学位后,在哈佛教了一年书,之后到康奈尔大学任教,成了贾里尼克教授。他之所以选择康奈尔大学,是因为在找工作时和那里的一位语言学家哈克特谈得很融洽。当时那位教授表态愿意和贾里尼克在利用信息论结局语音问题上进行合作。但是,后来那位教授食言了。贾里尼克对语言学家的坏印象从此开始。后来在IBM时发现语言学家嘴上头头是道,工作时却高低不就,对语言学家从此深恶痛绝,后来就有了那句“名言”。


    1972年,贾里尼克到IBM华生实验室休假,无意间领导了语音识别实验室,并在两年后跳槽到了IBM。在哪里,他组建了阵容强大的研究队伍,包括他的著名搭档波尔、著名的语音识别Dragon公司的创始人贝克夫妇、解决最大熵迭代算法的达拉皮垂孪生兄弟、BCJR算法的另外两个共同提出者库克和拉维夫、以及第一个提出机器翻译统计模型的布朗。就连当前资历最浅的小字辈任务拉法特现在也成了著名的学者。


    在IBM,贾里尼克等人提出了统计语音识别的框架结构。在贾里尼克之前,科学家把语音识别问题当作人工只能和模型匹配问题。而贾里尼克把它当作通信问题,并用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括的清清楚楚。这个框架对至今的语音和语言处理有着深远的影响,它不仅从根本上使得语音识别有使用的可能,而且奠定了今天自然语言处理的基础。


    贾里尼克和波尔、库克以及拉维夫对人类的一大贡献是BCJR算法,这是今天数学通信中应用最广的两个算法之一(另一个是维特比算法)。不过在这个算法发明20年后,才得以广泛应用。IBM把它列为IBM有史以来对人类的最大贡献之一,并贴在加州阿莫顿实验室墙上。不过,后来BCJR的四个人全部离开了IBM。


    贾里尼克和IBM一批最杰出的科学家在上个世纪90年代初离开了IBM,他们中的大多数后来都成为了千万甚至亿万富翁,但贾里尼克不是个能闲下来的人,1994,他去约翰·霍普金斯大学建立了世界著名的CLSP(Center for Language and Speed Processing)实验室。在贾里尼克到约翰·霍普金斯大学之前,这所以医学闻名的大学在工程领域并不拔尖,也完全没有语音识别和自然语言处理这样的新兴学科。贾里尼克从零开始,在短短两三年内就将CLSP变成了世界上一流的研究中心。


    贾里尼克在70多岁以后仍然头脑敏锐,并且每天按时上班。2010年9月14日,他在办公桌前因心脏病发作而不幸离世。他在别人退休、安度晚年的年龄开始创立当今世界学术界最大的语音和语言处理中心,并且工作到了生命的最后一天。由于他有大量的学生和朋友在Google工作,这些人和Google公司为约翰·霍普金斯大学捐赠了一笔钱,创立了贾里尼克奖学金。

© 著作权归作者所有

共有 人打赏支持
Realfighter

Realfighter

粉丝 142
博文 139
码字总数 144659
作品 2
洛阳
程序员
私信 提问
数学之美札记:信息的度量和作用

1948年,香农在著名论文“通信的数学原理”中提出了“信息熵”的概念,解决了信息的度量问题,并且量化出信息的作用。 香农使用了“比特”(Bit)这个概念来度量信息量。一个比特是一位二进制...

Realfighter
2015/06/07
345
0
大数据、机器学习及人工智能必读书目——《数学之美》

  计分析、机器学习即人工智能必读书目系列之数学之美      我们已经进入了全新的数据时代,大数据、云计算、物联网、机器学习、人工智能等等一系列技术纷至沓来,数据的管理和应用已经...

爱编程爱统计
2017/09/09
0
0
数学之美札记:自然语言处理——从规则到统计

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识...

Realfighter
2015/05/28
0
2
数学之美札记:文字和语言 vs 数字和信息

数学、文字和自然语言一样,都是信息的载体,他们之间有着天然的联系。语言和数学的产生都是为了同一样目的——记录和传播信息。本文是《数学之美》第一章札记。 1798年,拿破仑远征军中,皮...

Realfighter
2015/05/27
0
0
2018-10-22-今日得到-《数学之美》

今天分享的主题来自得到的每天听本书系列之《数学之美》 关于作者 吴军,得到App专栏《吴军的谷歌方法论》主理人。计算机科学家,硅谷投资人,著名自然语言处理专家和搜索专家。曾先后供职于...

韬声依旧在路上
2018/10/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

《蒙福人生》读后感作文2900字

《蒙福人生》读后感作文2900字: 我们的财富从何来?投胎、勤奋、智慧、机遇?我相信会有很多小伙伴会把上面的选项都否掉,或是一定要加一个前提即我们是基督徒当然是从神而来。如果我们确定...

原创小博客
13分钟前
0
0
使用xtrabackup备份数据库

使用xtrabackup备份数据库 提供一个参考文档:http://xtra.aminglinux.com mysqldump对于导出几个G的数据库或几个表,还是不错的,速度并不慢。一旦数据量达到几十上百G,无论是对原库的压力...

wzb88
20分钟前
0
0
Java 命令行工具使用

待更新 https://lotabout.me/2018/QQA-Understanding-jstat-gc-output/

lemos
46分钟前
2
0
Python自制微信机器人:群发消息、自动接收好友

运营公众号也有半年了,今年5月份开始的,之前一直用一款windows工具来运营自动接受好友请求、群发文章、自动回复等操作,但颇有不便。 举几个场景: 突然在外面看到一篇文章很好,临时写了一...

上海小胖
49分钟前
1
0
C# WPF上位机实现和下位机TCP通讯

下位机使用北京大华程控电源DH1766-1,上位机使用WPF。实现了电压电流实时采集,曲线显示。上午在公司调试成功,手头没有程控电源,使用TCP服务端模拟。昨天写的TCP服务端正好排上用场。 界面...

SEOwhywhy
50分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部