文档章节

经济学人:计算机如何学习人类语言?

RiboseYim
 RiboseYim
发布于 2017/08/30 14:01
字数 2311
阅读 130
收藏 0

钉钉、微博极速扩容黑科技,点击观看阿里云弹性计算年度发布会!>>>

经济学人:计算机如何学习人类语言?

今年圣诞节数以百万计的人将得到一种装有电子设备的盒子——能够快速地提高使用人类语言的能力。亚马逊的 Echo 设备,配备了一个名为 Alexa 的数字助理,现在在500多万户家庭中出现。 Echo 是一个圆筒形的台式电脑,除了声音之外没有其它接口。你可以要求 Alexa 播报天气信息,播放音乐,预定出租车,告知通勤路程或讲一个老掉牙的笑话,它都会响应。来自美国电脑巨头的语音驱动式数字助理(谷歌的 Assistant、微软的 Cortana和苹果的 Siri)也已经取得了很大的进步。计算机是如何处理人类语言的问题呢?

曾经的想法是将教机器学习语言规则,例如翻译,使用一套语法规则来打破源语言的意义,再用另一组用来重现目标语言中的意思。但是经历过20世纪50年代的乐观情绪过后,业界发现这种系统不能用于复杂的新句子;基于语言规则的方法很难大规模扩展应用。用于人类语言识别技术的研究投资进入了长达几十年的蛰伏期,直到20世纪80年代的迎来复兴时期。

实际上,人类语言识别技术可以通过模式匹配的形式来自我学习。例如语音识别,计算机一边输入语音文件作为语料,另一边是人工编辑的译本作为的译本。系统学着预测这些语音的结果“听起来”应该属于那个译本。在翻译过程中,训练数据是源语言文本和人工翻译的文本。系统自主学习、匹配它们之间的模式。提高语音识别和翻译能力的一个因素是“语言模型”—— 一个关于英语句子的知识库。这大大缩小了系统的预测工作量。

最近有三件事使这种方法取得了巨大的飞跃:首先,计算机的运算能力比过去强大得多。第二,它们可以从海量的、日益增长的数据中学习,不管是在因特网上公开获取还是公司私下收集的。第三,所谓的“深度学习”(deep learning),它使用包括多层次的数字“神经元”及其连接的数字神经网络,使得该系统非常善于从例子中学习。

所有这一切都意味着,计算机现在非常善于回答具备明确定义的问题。例如 “明天伦敦的气温是多少?” (公平地说,你不必是一台电脑也能知道明天伦敦会下雨)。用户甚至可以用更自然的方式询问,比如“明天我应该带伞去伦敦吗?”(数字助理不断地从人们不同的提问方式中学习),但是问一个开放式的问题(“明天伦敦有什么有趣或者可以薅羊毛的事情吗?”)通常你只会得到一个来自搜索引擎结果的列表。

随着机器学习( machine learning)的改进,当用户的智能设备更加熟悉他们时,这样的答案将变得更加有用。这意味着隐私倡导者的麻烦,但是参考过去几年手机应用的情况来看,消费者将作出权衡,他们通常非常高兴能获得新功能。

经济学人:译者为何忧虑?

翻译(本文仅指笔译)可以是一份孤独的工作,这就很好地解释了为什么大多数翻译选择这项职业是出于自身兴趣,而不是关注度。不久之前,可以说一名合格译员都可以谋得一个稳定体面的生活,但是翻译行业正经历着扭曲的变革,让胆小者感受到谋生之艰。

大多数翻译都是自由职业者,随着因特网的普及,一名合格译员可以入住在肯塔基州但服务于瑞士银行。但是网络互通也导致了激烈的全球竞争,随之即是大幅压价。译员们要么拼命多做或者抢酬劳高的活-这意味着实际翻译的时间少了-要么找一家能帮他们争取到任务的代理机构,但这意味着佣金抽取。除了自己单干或者和代理机构合作,译员还可以在线上市场宣传自身技能,但这暴露了最残忍的竞价压力:像译文千字 13-15 美金这么低的价格也不是没有。以前50美金左右就算低价翻译,那时候文学翻译大概是120美金,高价是250美金。在线上市场,几乎不懂外文和译文质量的买家几乎单纯按价格进行买卖。

职业压力还有另外一个出处:较高质量的机器翻译的涌现。仅仅是一年前,机器翻译的结果还不可靠:内容上不准确,且常不具可读性。而如今这两个缺陷都由基于所谓深度神经网络的翻译引擎大幅改善。几乎可以确定那些报特低价的译员们使用了翻译软件,然后直接针对译文的准确度和可读性进行快速编辑。总体来看,大的翻译机构都对这些科技和其广阔可能性拍手叫好。但是,另译员们本身感受担忧的是,自己的未来除了这种科技大清洗,智力上的愉悦感,别无其它了。对于所有现役译员来说,受影响者都不开心。为了避免成为“未来捡咖啡豆的人”,老译员建议提高专业领域知识和写作技能,以争取高端翻译。但并非人人都能做到。身在普遍性和中端市场的翻译们必然更多的是做编辑工作,否则就是被挤出局。

那剩下的翻译们何去何从呢?其一,文学翻译不受威胁。2001至2015年间,在英国,经翻译的小说售量上升了600%还不止,在美国也一直处于强劲增长中。像埃莱娜·费兰特(Elena Ferrante)这样的大作家也建议这些国家的读者们跳出自己的国度找好书。没人会相信一部机器可以翻译出一本小说。罗伊.雅各布森(Roy Jacobsen)的《看不见的事物》(Unseen)被列入2017年布克国际文学奖(Man Booker International Prize-MBIP)决选名单,原本的挪威岛方言经由唐.巴特利特(Don Bartlett)和唐.肖(Don Shaw)地道译出了带有同样风味的英文:“Hvur bitty it is!”(“How small it is!”“这个真是太小了!”)。MBIP让本书原作者和译者共享奖金,认可了翻译事实上是一种创作。

大多数翻译属于商业翻译,但那也属于一种创作。高管们常常否定一份讲稿或者一封信件的译文,因为那看起来不像他们的原作。但是一名好译员需要再度思考文章本身、重述重要篇章、分解或合并句段,如此等等。翻译软件可以做到准确,但它是逐句翻译。由于语言在考量句子好坏时基于不同的节奏、有不同的期待,因此软件效果可能是一团糟。所以翻译最好的办法只能是先思考原语所指深意,再重新创作。

另一个市场就是“译创”(transcreation),常见于广告业,这里要求译员重新思考一条信息,确保它在新语言(译语)中的版本具备正确的文化参照、笑点等诸如此类,来复刻原语的影响力,跳出语言本身。在这种情况下,“译创员”相比大多数译员来说,更是一名原创作者。

正在被科技重塑的翻译工作很难是一项孤独的工作了。法律、会计以及其它很多可敬的工作正见证着重复性脑力工作由机器完成,效果差强人意。未来的翻译想要做得真好,需要的不仅仅是语言和写作技能,还必须获得客户信任、站在客户角度考虑,就像律所或者会计所的合伙人。换句话说,翻译行业里的孤独者可能举步维艰了。

RiboseYim
粉丝 80
博文 78
码字总数 179042
作品 0
广州
程序员
私信 提问
加载中
请先登录后再评论。
人工智能:让计算机听懂人类语言

在国际会议上,翻译人员是人们熟悉的,但翻译机器人就鲜见了?日前,在国际计算语言学联合会2015年年会(ACL-2015)的终身成就奖颁奖互动环节上,来自百度公司的机器人“小度”,就担任起了这...

梁宝双
2018/06/29
19
0
Machine Learning 资讯 : 经济学家谈人工智能

Previous Posts Machine Learning:人工智能媒体报道集 媒体报道|经济学人:译者的悲伤 | 20170527 - 媒体报道 经济学人:计算机如何学习人类语言? 20170111 为什么人工智能的繁荣没有提高生...

RiboseYim
2018/03/12
19
0
经济学人 新经济、大数据、行为学

美国的金融重心正在从华尔街向硅谷转移,其背后的推手是以高科技与互联网企业为代表的新经济的兴起。新经济带来的不只是对传统商业模式的颠覆,也为经济学引入了全新的思考。微观经济学和行为...

数据分析师
2015/09/28
4
0
经济学人使用Golang构建微服务历程回顾

关键点 经济学人内容分发系统需要更大的灵活性,将内容传递给日益多样化的数字渠道。为了实现这一灵活性目标并保持高水平的性能和可靠性,平台从一个单体结构过渡到微服务体系结构。 用Go编写...

osc_05umekgg
2019/01/22
3
0
【NLP】老司机带你入门自然语言处理

自然语言处理是一门用于理解人类语言、情感和思想的技术,被称为是人工智能皇冠上的明珠。 随着深度学习发展,自然语言处理技术近年来发展迅速,在技术上表现为BERT、GPT等表现极佳的模型;在...

osc_73pstnki
05/25
10
0

没有更多内容

加载失败,请刷新页面

加载更多

还在用Swagger(丝袜哥)生成接口文档?我推荐你试试它.....

JApiDocs是一个无需额外注解、开箱即用的SpringBoot接口文档生成工具。 编写和维护API文档这个事情,对于后端程序员来说,是一件恼人但又不得不做的事情,我们都不喜欢写文档,但除非项目前后...

路人甲Java
07/09
0
0
智能仓储的独角兽逻辑

智能仓储的主要应用市场在哪里?客户的付费意愿和付费能力如何? 1、仓储设备具备标准化和通用化特点 由于电商和新零售的快速发展,轻工业品零售仓库的需求量大幅增加。而中国又是全球轻工业...

logiter
2019/08/23
14
0
可是小腿哪能扭过大腿

父亲是一个特别勤苦的人,他从不睡懒觉,每天天麻麻亮,或是下地干活,或是在家搞副业,或是拿着铁锨、粪筐,到路边,到村子周围,到牲畜常出入的地方,去拾粪蛋子,为庄稼积攒肥料,父亲不仅...

瑾123
17分钟前
6
0
一个volatile跟面试官扯了半个小时

《安琪拉与面试官二三事》系列文章,本文是此系列第三篇 一个HashMap能跟面试官扯上半个小时 一个synchronized跟面试官扯了半个小时 欢迎关注Wx公众号:【安琪拉的博客】—揭秘Java后端技术,...

osc_6ls9vwji
18分钟前
0
0
内网渗透靶机-VulnStack 2

WEB服务器:windows2008系统 外网网卡IP:192.168.1.152 内网网卡IP:10.10.10.80 域成员:windows server 2003系统 网卡IP:10.10.10.200 域控服务器:windows server 2008系统 网卡IP:192...

dnsil
07/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部