文档章节

经济学人:计算机如何学习人类语言?

RiboseYim
 RiboseYim
发布于 2017/08/30 14:01
字数 2311
阅读 41
收藏 0

经济学人:计算机如何学习人类语言?

今年圣诞节数以百万计的人将得到一种装有电子设备的盒子——能够快速地提高使用人类语言的能力。亚马逊的 Echo 设备,配备了一个名为 Alexa 的数字助理,现在在500多万户家庭中出现。 Echo 是一个圆筒形的台式电脑,除了声音之外没有其它接口。你可以要求 Alexa 播报天气信息,播放音乐,预定出租车,告知通勤路程或讲一个老掉牙的笑话,它都会响应。来自美国电脑巨头的语音驱动式数字助理(谷歌的 Assistant、微软的 Cortana和苹果的 Siri)也已经取得了很大的进步。计算机是如何处理人类语言的问题呢?

曾经的想法是将教机器学习语言规则,例如翻译,使用一套语法规则来打破源语言的意义,再用另一组用来重现目标语言中的意思。但是经历过20世纪50年代的乐观情绪过后,业界发现这种系统不能用于复杂的新句子;基于语言规则的方法很难大规模扩展应用。用于人类语言识别技术的研究投资进入了长达几十年的蛰伏期,直到20世纪80年代的迎来复兴时期。

实际上,人类语言识别技术可以通过模式匹配的形式来自我学习。例如语音识别,计算机一边输入语音文件作为语料,另一边是人工编辑的译本作为的译本。系统学着预测这些语音的结果“听起来”应该属于那个译本。在翻译过程中,训练数据是源语言文本和人工翻译的文本。系统自主学习、匹配它们之间的模式。提高语音识别和翻译能力的一个因素是“语言模型”—— 一个关于英语句子的知识库。这大大缩小了系统的预测工作量。

最近有三件事使这种方法取得了巨大的飞跃:首先,计算机的运算能力比过去强大得多。第二,它们可以从海量的、日益增长的数据中学习,不管是在因特网上公开获取还是公司私下收集的。第三,所谓的“深度学习”(deep learning),它使用包括多层次的数字“神经元”及其连接的数字神经网络,使得该系统非常善于从例子中学习。

所有这一切都意味着,计算机现在非常善于回答具备明确定义的问题。例如 “明天伦敦的气温是多少?” (公平地说,你不必是一台电脑也能知道明天伦敦会下雨)。用户甚至可以用更自然的方式询问,比如“明天我应该带伞去伦敦吗?”(数字助理不断地从人们不同的提问方式中学习),但是问一个开放式的问题(“明天伦敦有什么有趣或者可以薅羊毛的事情吗?”)通常你只会得到一个来自搜索引擎结果的列表。

随着机器学习( machine learning)的改进,当用户的智能设备更加熟悉他们时,这样的答案将变得更加有用。这意味着隐私倡导者的麻烦,但是参考过去几年手机应用的情况来看,消费者将作出权衡,他们通常非常高兴能获得新功能。

经济学人:译者为何忧虑?

翻译(本文仅指笔译)可以是一份孤独的工作,这就很好地解释了为什么大多数翻译选择这项职业是出于自身兴趣,而不是关注度。不久之前,可以说一名合格译员都可以谋得一个稳定体面的生活,但是翻译行业正经历着扭曲的变革,让胆小者感受到谋生之艰。

大多数翻译都是自由职业者,随着因特网的普及,一名合格译员可以入住在肯塔基州但服务于瑞士银行。但是网络互通也导致了激烈的全球竞争,随之即是大幅压价。译员们要么拼命多做或者抢酬劳高的活-这意味着实际翻译的时间少了-要么找一家能帮他们争取到任务的代理机构,但这意味着佣金抽取。除了自己单干或者和代理机构合作,译员还可以在线上市场宣传自身技能,但这暴露了最残忍的竞价压力:像译文千字 13-15 美金这么低的价格也不是没有。以前50美金左右就算低价翻译,那时候文学翻译大概是120美金,高价是250美金。在线上市场,几乎不懂外文和译文质量的买家几乎单纯按价格进行买卖。

职业压力还有另外一个出处:较高质量的机器翻译的涌现。仅仅是一年前,机器翻译的结果还不可靠:内容上不准确,且常不具可读性。而如今这两个缺陷都由基于所谓深度神经网络的翻译引擎大幅改善。几乎可以确定那些报特低价的译员们使用了翻译软件,然后直接针对译文的准确度和可读性进行快速编辑。总体来看,大的翻译机构都对这些科技和其广阔可能性拍手叫好。但是,另译员们本身感受担忧的是,自己的未来除了这种科技大清洗,智力上的愉悦感,别无其它了。对于所有现役译员来说,受影响者都不开心。为了避免成为“未来捡咖啡豆的人”,老译员建议提高专业领域知识和写作技能,以争取高端翻译。但并非人人都能做到。身在普遍性和中端市场的翻译们必然更多的是做编辑工作,否则就是被挤出局。

那剩下的翻译们何去何从呢?其一,文学翻译不受威胁。2001至2015年间,在英国,经翻译的小说售量上升了600%还不止,在美国也一直处于强劲增长中。像埃莱娜·费兰特(Elena Ferrante)这样的大作家也建议这些国家的读者们跳出自己的国度找好书。没人会相信一部机器可以翻译出一本小说。罗伊.雅各布森(Roy Jacobsen)的《看不见的事物》(Unseen)被列入2017年布克国际文学奖(Man Booker International Prize-MBIP)决选名单,原本的挪威岛方言经由唐.巴特利特(Don Bartlett)和唐.肖(Don Shaw)地道译出了带有同样风味的英文:“Hvur bitty it is!”(“How small it is!”“这个真是太小了!”)。MBIP让本书原作者和译者共享奖金,认可了翻译事实上是一种创作。

大多数翻译属于商业翻译,但那也属于一种创作。高管们常常否定一份讲稿或者一封信件的译文,因为那看起来不像他们的原作。但是一名好译员需要再度思考文章本身、重述重要篇章、分解或合并句段,如此等等。翻译软件可以做到准确,但它是逐句翻译。由于语言在考量句子好坏时基于不同的节奏、有不同的期待,因此软件效果可能是一团糟。所以翻译最好的办法只能是先思考原语所指深意,再重新创作。

另一个市场就是“译创”(transcreation),常见于广告业,这里要求译员重新思考一条信息,确保它在新语言(译语)中的版本具备正确的文化参照、笑点等诸如此类,来复刻原语的影响力,跳出语言本身。在这种情况下,“译创员”相比大多数译员来说,更是一名原创作者。

正在被科技重塑的翻译工作很难是一项孤独的工作了。法律、会计以及其它很多可敬的工作正见证着重复性脑力工作由机器完成,效果差强人意。未来的翻译想要做得真好,需要的不仅仅是语言和写作技能,还必须获得客户信任、站在客户角度考虑,就像律所或者会计所的合伙人。换句话说,翻译行业里的孤独者可能举步维艰了。

© 著作权归作者所有

共有 人打赏支持
RiboseYim
粉丝 74
博文 77
码字总数 175708
作品 0
广州
程序员
私信 提问
我的 2017 年度盘点

一、Core Topics Learning based on full English. Operating System Kernel & Dynamic tracking & Go Programming Language. Lincoln Foundation & Absolutism Research. 二、年度成果 2.1 ......

RiboseYim
2017/12/30
0
0
《经济学人》也谈 Python:它会是我们的未来吗?

经济学人发表了一篇文章谈论了 Python 语言及其社区,以及刚刚辞职的终身仁慈独裁者 Guido van Rossum。 1989 年 12 月,荷兰计算机科学家 van Rossum 定下了一个圣诞节目标,创造出一种易于...

达尔文
07/26
0
10
Python会是编程的未来吗?

30 年后的今天,van Rossum 发现自己无意中变成了电影《布莱恩的一生》中的弥赛亚。他说自己创造的语言肯定不是为大众消费而设计的。但美国用户在 Google 上搜索 Python 的频率比真人秀电视明...

六库科技
08/03
0
0
AI将跨过低谷于2018迎来生产力新高地?

  【IT168 资讯】人工智能将会是在未来几年影响我们人类的最大的事情之一。毫无疑问,这种不断发展的技术将会使人类的生活更加美好,但人们担心会导致失业以及对人工智能比创造它们的人更智...

it168网站
2017/12/28
0
0
《经济学人 —— 人工智能专题报告》

原文: https://www.economist.com/sites/default/files/aimailout.pdf 我对这篇文章的一些个人解读:http://www.cnblogs.com/massquantity/p/8323665.html 害怕新机器某一天会取代所有人的工...

massquantity
01/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Alibaba Java诊断利器Arthas实践--使用redefine排查应用奇怪的日志来源

背景 随着应用越来越复杂,依赖越来越多,日志系统越来越混乱,有时会出现一些奇怪的日志,比如: [] [] [] No credential found 那么怎样排查这些奇怪的日志从哪里打印出来的呢?因为搞不清...

hengyunabc
今天
1
0
home hosts

home hosts lwk@qwfys:~$ cat /etc/hosts127.0.0.1 localhost127.0.1.1 qwfys192.168.56.101vm600.qwfys.com39.108.212.91alpha1.ppy.com39.108.117.122alpha2.p......

qwfys
今天
1
0
大数据教程(6.1)hadoop生态圈介绍及就业前景

1. HADOOP背景介绍 1.1、什么是HADOOP 1.HADOOP是apache旗下的一套开源软件平台 2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3.HADOOP的核心组...

em_aaron
今天
4
0
hadoop垃圾回收站

在生产生,hdfs回收站必须是开启的,一般设置为7天。 fs.trash.interval 为垃圾回收站保留时间,如果为0则禁用回收站功能。 fs.trash.checkpoint.interval 回收站检查点时间,一般设置为小于...

hnairdb
昨天
3
0
腾讯与Github的魔幻会面背后的故事…

10月22日,腾讯开源管理办公室有幸邀请到Github新晋CEO Nat Friedman,前来鹅厂参观交流。目前腾讯已经有近70个项目在Github上开源,共获得17w stars,世界排名11位。Github是腾讯开源的主阵...

腾讯开源
昨天
19
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部