神经网络机器翻译在中日与中韩翻译中的应用

2017/10/09 18:32
阅读数 140


近日,网易有道机器学习团队在中日互译与中韩互译上启用了神经网络机器翻译(Neural Machine Translation,以下简称NMT)技术,这是有道NMT技术服务自四月底上线以来,首次在中文与非英语语种中进行运用。


神经网络翻译是机器翻译领域兴起的一项新技术,它基于复杂的神经网络结构来模拟人脑的工作机制,对翻译的全过程进行整体建模。神经网络翻译用了不到三年的时间超越了已有15年历史的传统机器翻译系统,并大大降低了翻译的门槛。相比于传统的SMT(Statistical Machine Learning, 统计机器翻译)技术,NMT技术更像是一个有机体,它不需要分别调试(tune)翻译过程中用到的各个子模块,而只需构建一个拥有编码器(encoder)-解码器(decoder)架构的神经网络,并利用高质量的平行语料进行训练。编码端负责将变长的源端语句转换为定长的向量表示,解码端则基于这些表示给出相应的译文,整个系统以最大化译文准确度为优化目标。较传统的机器翻译技术而言,NMT有其自身的优点。其天然的神经网络结构使得NMT能够更好地推理一些新的短语和句子,尽管这些短语或句子并没有出现在训练语料中。此外,NMT的RNN(Recurrent Neural Network,循环神经网络)结构使得它能够根据上下文来生成高质量且语句更加通顺的译文,从而克服了SMT无法生成通顺译文的弊端。


尽管神经网络翻译有诸多优点,但是真正想要“驾驭”这项新技术面临很多技术难点。对此,有道机器学习团队有他们独到的技术:


数据


深度学习模型往往需要海量的高质量数据来做支撑,神经网络翻译模型亦是如此。从中英互译模型训练的经验来看,若平行语料数据量过小,那么其训练效果将不足以投入实际应用中。由于英语的普及性,英日和英韩的语料相对容易获取,而中日、中韩的语料较为稀少。但考虑到日语与韩语跟中文天然的语言相似性,有道团队选择了直接使用中日和中韩平行语料,而不是以英文作为中间语言,但这也为数据挖掘带来了不少的困难。为此,有道团队搜寻并抓取了所有能够获取的互联网数据源,包括而不限于词典例句、双语新闻网站、教学网站等,并对数据进行了较为严格的清洗和筛选。结合早期积累的双语数据和这批新挖掘的高质量的语料,为有道中日和中韩NMT服务打下了良好的数据基础。


预处理


日语和韩语同中文一样,都是需要在预处理过程中进行分词的语言。日语起源于汉字,这样一来有部分的日语和汉字是重叠的,并且如果只用汉字表达日语是完全符合规范的。因此需要制定一些规则来处理日语的源语言识别问题;而韩语则需要在分词过程中准确地分割出助词和词缀等信息。与传统的基于短语或者层次短语的体系下的统计机器翻译系统不同,对语言的预处理尤其是分词的准确性,会很大程度上影响NMT系统中关键环节词嵌入(embedding)的准确度,继而影响到后续翻译模型的质量。为此,有道翻译团队引入了一些专门针对日语和韩语的分词逻辑,从而提高了这两种语言分词的准确度。


模型&训练


自2015年,注意力(Attention)机制被引入NMT以来,基于注意力机制的NMT模型成为了最广泛的神经网络翻译模型。注意力机制能够在每一步选择不同的侧重点来进行翻译,从而提高了NMT的翻译质量。有些人认为NMT模型都大同小异,但其实是细节决定成败。除了使用已有的NMT技术之外,有道团队对NMT的架构进行了一系列的优化,使得其中英互译的效果明显优于同类翻译产品。在中英互译模型的基础上,各个小语种会根据自身特点对模型的架构和参数进行调整。此外,为得到更高质量的翻译结果,会选择性地对一些模型进行聚合(ensemble)。


我们尝试了一些方法来改进小语种的翻译质量。例如,我们使用了多语言模型,将收集到的多语言平行语料混合到一个模型中进行训练,这种方法的优点是可以用一个模型来翻译不同语种的语句,而且由于语言之间存在一些共性,数据量的提升也带来了质量上的改进。同时,在部署服务方面,也不需要为不同的翻译方向部署不同的服务,可以使用一套多语言模型系统提供多个语言的翻译服务。


使用NMT技术面临的另一个问题是其训练过程的计算复杂度很高,尤其是在模型和数据量非常庞大的时候。针对不同的语言、不同的数据情况,工程师需要进行大量的实验来确认较优的框架结构和参数,模型训练的高成本会大大拖慢这一工作的进展。为了克服这一难点,有道翻译团队在训练过程中使用了数据并行化的方法,从而达到了减少训练时间而不影响训练效果的目的。

让我们看看有道翻译和其他翻译产品的比较。我们分别对中译日、日译中选取了新闻长句、新闻短句和短语进行比较。

【日文长句】今後、大幅な経済発展と市場の拡大が期待されるアジアをはじめとする新興国マーケットを中心に、従来強みがあった製造業のみならず、日本の文化を体現した産業群が、日本の経済・産業の発展や雇用創出の推進力になることが期待できる。

【人工翻译】今后,预计将有大幅度经济发展和市场扩大的以亚洲为首的新兴国家市场为中心,不仅是现在一直保持优势的制造业、体现日本文化的产业群体也被期待成为推动日本经济・产业发展和创造工作岗位的原动力。

【有道NMT翻译】今后,以期待大幅度的经济发展和市场扩大的以亚洲为首的新兴国家市场为中心,不仅是以前的强项制造业,也可以期待体现日本文化的产业群,成为日本经济、产业的发展和创造工作岗位的推动力。

【有道SMT翻译】今后大幅的经济发展和市场的扩大,被期待亚洲在内的新兴マーケッ都为中心,现有有优势的制造业,不仅体现了日本的文化产业群,但日本的经济、产业的发展和创造就业机会的期待可以成为推进力。

【百度NMT翻译】今后,在不断的经济发展和市场的扩大的以亚洲为首的新兴国中心中心,不仅是以前有优势的制造业,体现了日本文化的产业群,能够期待日本经济产业的发展和雇佣创造起来。

【Bing NMT翻译】未来, 我们将关注新兴市场, 包括亚洲, 在那里有很大的经济发展和市场扩张的预期. 不仅制造业具有很强的优势, 而且体现日本文化的产业集团也有望成为日本经济和工业发展和创造就业的推动力。

【Google NMT翻译】未来,不仅在传统优势的制造业,也是在日本文化体现的工业集团,主要是在亚洲这样的新兴市场,如经济发展和市场扩张,日本的经济 ·可望成为产业发展和创造就业的动力。

【日文短句】我が国の産業化の歴史を長期的に見てみると、経済発展や与件の変化に伴って、異なる時代で「生きる道」は変化してきている。

【人工翻译】纵观我国产业化的历史,随着经济的发展和条件的变化,在不同的时代,“生存道路”也在发生变化。

【有道NMT翻译】从长期看我国产业化历史的角度来看,随着经济发展和条件的变化,在不同时代,“生存之道”正在发生变化。

【有道SMT翻译】我国的工业化的历史,长期来看,经济发展和条件的变化,不同的时代,“活路”发生了变化。

【百度NMT翻译】我国的产业化的历史的长期看,经济发展和论据的变迁中不同的时代,“生存之道”的变化。

【Bing NMT 翻译】从长期看工业化的历史来看, 随着经济的发展和条件的变化, 我们的生活方式在不同的时代发生着变化。

【Google NMT翻译】从长远看我国工业化的历史来看,随着经济发展和形势的变化,“生活方式”在不同时期发生了变化。

【日文短语】ヴェストファーレン条約

【人工翻译】威斯特法伦条约、威斯特伐利亚和约

【有道NMT翻译】威斯特法伦条约(同:威斯特伐利亚和约,只是音译不同)

【有道SMT翻译】威斯特伐利亚和约

【百度NMT翻译】ヴェストファーレン条约

【Bing NMT 翻译】西华里亚大会

【Google NMT翻译】威斯特伐利亚条约

【韩语原文】너의 아버지라기보다는 인생을 한 세대 먼저 산 선배의 입장에서 심도 있는 조언을 주고 싶다.

【人工翻译】与其说是作为你的父亲,倒不如说是作为你的长辈想给你一句深刻的忠告。

【有道NMT翻译】比起你的父亲,我更希望能从第一代的前辈的立场上提出一些有深度的建议。

【有道SMT翻译】你的父亲,与其说是人生的代先山前辈的立场上有深度的建议。”

【百度NMT翻译】你的爸爸是人生一代先山前辈的立场,有力度的建议。

【Bing NMT翻译】你的父亲想从第一代的三年级学生的角度来给 in-depth 建议而不是生活。

【Google NMT翻译】我想从一位生活在一代而不是你父亲的老人的角度提出深入的意见。

【韩语原文】차를 자주 마시면 건강에 좋다고 합니다. 하지만 건강하게 차를 마시려면 지켜야 하는 몇 가지 주의할 점이 있는데요.

【人工翻译】多喝茶对健康有益。但是想要健康地喝茶要注意几个地方。

【有道NMT翻译】经常喝茶有利于健康。但是要想要健康地喝茶,有几点需要注意呢。

【有道SMT翻译】如果经常喝酒车,有利于健康。但是健康要喝茶的几个必须遵守要注意。

【百度NMT翻译】经常喝喝茶有益健康。但是健康喝茶要遵守的几个注意点。

【Bing NMT 翻译】 喝茶经常有益健康。但是有一些告诫你要保持健康。

【Google NMT翻译】如果你经常喝茶,这对你的健康有好处。 但是喝一辆健康的汽车时,要注意一些注意事项。

由于日韩NMT处于起步阶段,日语的特殊性还可以进行更多的处理,以得到更好的结果。一些可以努力的方向和存在的问题有:

  • 小语种的数据仍需要持续不断的挖掘和更新;

  • 分词尤其是日语的分词和源语言判断逻辑的进一步优化。

  • 日语存在汉字和假名,它们之间的关系类似于汉字与拼音。但与汉语不同的是,正式日语中同时使用汉字和假名是合法的,且汉字与假名是多对多的关系。这就对翻译的准确度检测造成了一定影响,因为传统的BLEU值对连续匹配上的序列进行检测,但是日文的这种特性导致了很多序列是同等合法的。

  • 一些专有的词语,比如成语、专有名词,很难在语料库中大量发现,于是可能无法得到精准的翻译,NMT可能将其分词逐字翻译。这就需要我们建立定向翻译机制,对特定词语进行特殊的处理和判断。这种精准识别对用户的体验度提升是非常大的。



【后记】

  • 欢迎与我们进行技术交流:ydtech@rd.netease.com

  • 有道人工智能团队目前正在招聘机器学习算法工程师(CV、NLP、语音等方向)、GPU并行计算研发工程师,欢迎投递简历至 hubo@corp.netease.com


有道招聘

点击“阅读原文”,了解上述岗位信息


本文分享自微信公众号 - 有道技术团队(youdaotech)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部