文档章节

经济学人:计算机如何学习人类语言?

RiboseYim
 RiboseYim
发布于 2017/08/30 14:01
字数 2311
阅读 44
收藏 0

经济学人:计算机如何学习人类语言?

今年圣诞节数以百万计的人将得到一种装有电子设备的盒子——能够快速地提高使用人类语言的能力。亚马逊的 Echo 设备,配备了一个名为 Alexa 的数字助理,现在在500多万户家庭中出现。 Echo 是一个圆筒形的台式电脑,除了声音之外没有其它接口。你可以要求 Alexa 播报天气信息,播放音乐,预定出租车,告知通勤路程或讲一个老掉牙的笑话,它都会响应。来自美国电脑巨头的语音驱动式数字助理(谷歌的 Assistant、微软的 Cortana和苹果的 Siri)也已经取得了很大的进步。计算机是如何处理人类语言的问题呢?

曾经的想法是将教机器学习语言规则,例如翻译,使用一套语法规则来打破源语言的意义,再用另一组用来重现目标语言中的意思。但是经历过20世纪50年代的乐观情绪过后,业界发现这种系统不能用于复杂的新句子;基于语言规则的方法很难大规模扩展应用。用于人类语言识别技术的研究投资进入了长达几十年的蛰伏期,直到20世纪80年代的迎来复兴时期。

实际上,人类语言识别技术可以通过模式匹配的形式来自我学习。例如语音识别,计算机一边输入语音文件作为语料,另一边是人工编辑的译本作为的译本。系统学着预测这些语音的结果“听起来”应该属于那个译本。在翻译过程中,训练数据是源语言文本和人工翻译的文本。系统自主学习、匹配它们之间的模式。提高语音识别和翻译能力的一个因素是“语言模型”—— 一个关于英语句子的知识库。这大大缩小了系统的预测工作量。

最近有三件事使这种方法取得了巨大的飞跃:首先,计算机的运算能力比过去强大得多。第二,它们可以从海量的、日益增长的数据中学习,不管是在因特网上公开获取还是公司私下收集的。第三,所谓的“深度学习”(deep learning),它使用包括多层次的数字“神经元”及其连接的数字神经网络,使得该系统非常善于从例子中学习。

所有这一切都意味着,计算机现在非常善于回答具备明确定义的问题。例如 “明天伦敦的气温是多少?” (公平地说,你不必是一台电脑也能知道明天伦敦会下雨)。用户甚至可以用更自然的方式询问,比如“明天我应该带伞去伦敦吗?”(数字助理不断地从人们不同的提问方式中学习),但是问一个开放式的问题(“明天伦敦有什么有趣或者可以薅羊毛的事情吗?”)通常你只会得到一个来自搜索引擎结果的列表。

随着机器学习( machine learning)的改进,当用户的智能设备更加熟悉他们时,这样的答案将变得更加有用。这意味着隐私倡导者的麻烦,但是参考过去几年手机应用的情况来看,消费者将作出权衡,他们通常非常高兴能获得新功能。

经济学人:译者为何忧虑?

翻译(本文仅指笔译)可以是一份孤独的工作,这就很好地解释了为什么大多数翻译选择这项职业是出于自身兴趣,而不是关注度。不久之前,可以说一名合格译员都可以谋得一个稳定体面的生活,但是翻译行业正经历着扭曲的变革,让胆小者感受到谋生之艰。

大多数翻译都是自由职业者,随着因特网的普及,一名合格译员可以入住在肯塔基州但服务于瑞士银行。但是网络互通也导致了激烈的全球竞争,随之即是大幅压价。译员们要么拼命多做或者抢酬劳高的活-这意味着实际翻译的时间少了-要么找一家能帮他们争取到任务的代理机构,但这意味着佣金抽取。除了自己单干或者和代理机构合作,译员还可以在线上市场宣传自身技能,但这暴露了最残忍的竞价压力:像译文千字 13-15 美金这么低的价格也不是没有。以前50美金左右就算低价翻译,那时候文学翻译大概是120美金,高价是250美金。在线上市场,几乎不懂外文和译文质量的买家几乎单纯按价格进行买卖。

职业压力还有另外一个出处:较高质量的机器翻译的涌现。仅仅是一年前,机器翻译的结果还不可靠:内容上不准确,且常不具可读性。而如今这两个缺陷都由基于所谓深度神经网络的翻译引擎大幅改善。几乎可以确定那些报特低价的译员们使用了翻译软件,然后直接针对译文的准确度和可读性进行快速编辑。总体来看,大的翻译机构都对这些科技和其广阔可能性拍手叫好。但是,另译员们本身感受担忧的是,自己的未来除了这种科技大清洗,智力上的愉悦感,别无其它了。对于所有现役译员来说,受影响者都不开心。为了避免成为“未来捡咖啡豆的人”,老译员建议提高专业领域知识和写作技能,以争取高端翻译。但并非人人都能做到。身在普遍性和中端市场的翻译们必然更多的是做编辑工作,否则就是被挤出局。

那剩下的翻译们何去何从呢?其一,文学翻译不受威胁。2001至2015年间,在英国,经翻译的小说售量上升了600%还不止,在美国也一直处于强劲增长中。像埃莱娜·费兰特(Elena Ferrante)这样的大作家也建议这些国家的读者们跳出自己的国度找好书。没人会相信一部机器可以翻译出一本小说。罗伊.雅各布森(Roy Jacobsen)的《看不见的事物》(Unseen)被列入2017年布克国际文学奖(Man Booker International Prize-MBIP)决选名单,原本的挪威岛方言经由唐.巴特利特(Don Bartlett)和唐.肖(Don Shaw)地道译出了带有同样风味的英文:“Hvur bitty it is!”(“How small it is!”“这个真是太小了!”)。MBIP让本书原作者和译者共享奖金,认可了翻译事实上是一种创作。

大多数翻译属于商业翻译,但那也属于一种创作。高管们常常否定一份讲稿或者一封信件的译文,因为那看起来不像他们的原作。但是一名好译员需要再度思考文章本身、重述重要篇章、分解或合并句段,如此等等。翻译软件可以做到准确,但它是逐句翻译。由于语言在考量句子好坏时基于不同的节奏、有不同的期待,因此软件效果可能是一团糟。所以翻译最好的办法只能是先思考原语所指深意,再重新创作。

另一个市场就是“译创”(transcreation),常见于广告业,这里要求译员重新思考一条信息,确保它在新语言(译语)中的版本具备正确的文化参照、笑点等诸如此类,来复刻原语的影响力,跳出语言本身。在这种情况下,“译创员”相比大多数译员来说,更是一名原创作者。

正在被科技重塑的翻译工作很难是一项孤独的工作了。法律、会计以及其它很多可敬的工作正见证着重复性脑力工作由机器完成,效果差强人意。未来的翻译想要做得真好,需要的不仅仅是语言和写作技能,还必须获得客户信任、站在客户角度考虑,就像律所或者会计所的合伙人。换句话说,翻译行业里的孤独者可能举步维艰了。

© 著作权归作者所有

共有 人打赏支持
RiboseYim
粉丝 74
博文 77
码字总数 175866
作品 0
广州
程序员
私信 提问
《经济学人》也谈 Python:它会是我们的未来吗?

经济学人发表了一篇文章谈论了 Python 语言及其社区,以及刚刚辞职的终身仁慈独裁者 Guido van Rossum。 1989 年 12 月,荷兰计算机科学家 van Rossum 定下了一个圣诞节目标,创造出一种易于...

达尔文
07/26
2.9K
10
我的 2017 年度盘点

一、Core Topics Learning based on full English. Operating System Kernel & Dynamic tracking & Go Programming Language. Lincoln Foundation & Absolutism Research. 二、年度成果 2.1 ......

RiboseYim
2017/12/30
0
0
Python会是编程的未来吗?

30 年后的今天,van Rossum 发现自己无意中变成了电影《布莱恩的一生》中的弥赛亚。他说自己创造的语言肯定不是为大众消费而设计的。但美国用户在 Google 上搜索 Python 的频率比真人秀电视明...

六库科技
08/03
0
0
《经济学人 —— 人工智能专题报告》

原文: https://www.economist.com/sites/default/files/aimailout.pdf 我对这篇文章的一些个人解读:http://www.cnblogs.com/massquantity/p/8323665.html 害怕新机器某一天会取代所有人的工...

massquantity
01/21
0
0
AI将跨过低谷于2018迎来生产力新高地?

  【IT168 资讯】人工智能将会是在未来几年影响我们人类的最大的事情之一。毫无疑问,这种不断发展的技术将会使人类的生活更加美好,但人们担心会导致失业以及对人工智能比创造它们的人更智...

it168网站
2017/12/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

【58沈剑 架构师之路】选redis还是memcache,源码怎么说

memcache和redis是互联网分层架构中,最常用的KV缓存。不少同学在选型的时候会纠结,到底是选择memcache还是redis。 画外音:不鼓励粗暴的实践,例如“memcache提供的功能是redis提供的功能的...

张锦飞
14分钟前
1
0
不要依赖于线程调度器(72)

多个线程可运行时, 线程调度器决定哪些线程将会被运行、以及运行多长时间 任何操作系统在处理该问题时,会 尽力做到公正,但是策略却大相径庭 编写良好的程序不要依赖这种策略细节,否则程序...

Java搬砖工程师
18分钟前
0
0
路由器AP、路由、中继、桥接模式之间的区别

在TP-Link迷你无线路由器上一般有AP(接入点)模式、Router(无线路由)模式、Repeater(中继)模式、Bridge(桥接)模式、 Client(客户端)模式;已经属于模式很全的路由了,尽管仅仅只是一个小...

吴伟祥
18分钟前
0
0
初识kafka的zookeeper

最近项目中,使用redis进行消息的分发与订阅。这种模式就是一种多播的方式,但是随着消息的不断增加,消费端来不及处理所有的数据。在没有持久化的功能下,很多数据丢失了。当然,也可以使用...

孟飞阳
20分钟前
1
0
赋能时空云计算,阿里云数据库时空引擎Ganos上线

随着移动互联网、位置感知技术、对地观测技术的快速发展,时空信息已从传统GIS行业渗透到大众应用及各行各业。从静态POI(兴趣点)到APP位置信息,从导航电子地图到车辆行驶轨迹,从卫星影像...

阿里云官方博客
21分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部