破译「罗塞塔石碑」要几十年?华裔MIT博士开发新系统,快速解密「死语言」

10/23 12:56
阅读数 1



  新智元报道  

来源:MIT

编辑:小匀

【新智元导读】丧失古老的语言不仅是学术界的损失,也是全人类文明的损失。MIT新开发的系统旨在帮助语言学家解读已被遗忘的「死语言」。


要说大英博物馆里最出名的文物,罗塞塔石碑(Rosetta Stone)绝对名列前三。它矗立在橱窗里,古老、神秘,沉默不语,但身上密密麻麻的字,却记载着古埃及的历史。

       


当时拿破仑的部队远征埃及,有人在尼罗河附近发现了这块石碑,上面刻有3种文字,1种是古希腊语,记录了年幼的托勒密五世登基成为法老一周年。


但另外2种看不懂,连拿破仑都想方设法破译上面的文字。

 


之后,一个叫商博良的「语言天才」历时约20年,终于破译了上面的其他文字。原来,这三种语言写的是同一件事。


如果商博良出生在现代,也许他20年的钻研NLP很快就能解决。


MIT新研究:无需「裙带关系」,就能破译语言


时至今日,世界上至少有12种语言仍未被破译。破译失传语言,很多时候要靠它和其他语言的关系。


商博良能破译象形文字,也是靠着他会多门语言的天赋。



麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员声称,已开发出一种系统,该系统可以在不知道丢失的语言与其他语言的关系的情况下,对其进行解密。


而且他们还表明,他们的系统本身可以确定语言之间的关系,并用它来证实最近的学术研究——伊比利亚语言与巴斯克语确实无关。


巴斯克语


是一种使用于巴斯克地区(西班牙东北部的巴斯克和纳瓦拉两个自治州,以及法国西南部)的孤立语言。


作为西欧唯一的孤立语言巴斯克语与现存语言是否有关争议很大




伊比利亚语


伊比利亚语是一个土生土长的西欧人的语言,经希腊和罗马资料证实,他们在前移民时代(约公元前375年)居住在伊比利亚半岛的东部和东南部地区。



破译「死语言」的两个难点


大多数未被破译的失传语言都有两个特点,这对破译工作构成了重大挑战:


(1)分割不够细致,没有被完全分割成「字符」


(2)不知道「近亲」是哪种,尚未确定最接近的已知语言


为此,MIT的研究人员创立了译码模型。通过学习基于国际音标(IPA)的字符嵌入来获取答案。


该项目建立在作者去年写的一篇论文基础上,该论文解密了乌加里特文(Ugaritic)和线性语言B,后者需要数十年的时间才能被人类解码。


在这个项目里,这两种语言都已知与与希伯来语和希腊语的早期形式有关。


这次作者挑战的是语言间的未知关系。


通过学习基于国际音标(IPA)的字符嵌入来获取答案


该算法学习将语音嵌入到一个多维空间中,语音的差异通过对应向量之间的距离反映出来。这种设计使他们能够捕获语言变化的相关模式,并将它们表示为计算约束。


生成的模型可以在一种古老的语言中分割单词,并将它们映射到相关语言中的对应单词。


模型概述:

生成丢失的文本从较小的单位-从字符到标志,从标志到铭文。字符映射首先在已知语言的音标上执行。根据这些映射,已知词汇表y中的一个标记y根据潜在对齐变量a被转换为丢失语言中的标记x。最后,所有生成的标记以及未匹配的跨越中的字符被连接起来,形成丢失的碑文。

蓝色框显示与模型的每一级相关联的语言属性

  

x范围的生成图形模型:一个生成span x的图模型表示:


不匹配的字符将按照独立同分布的条件生成,而匹配的字符范围以两个隐变量为条件:y表示已知的同源字符,a表示x和y之间的字符级对齐


IPA嵌入图

每个音位首先由一个音位特征向量表示。该模型首先嵌入每个特征,然后将所有相关的特征嵌入连接起来,得到IPA嵌入。例如,电话[b]可以表示为voiced,stop和labial嵌入的连接


虽然给定的语言很少添加或删除一个音,但某些音替换可能会发生。在父语言中带有「p」的单词在后代语言中可能会变成「b」 ,但是由于发音上的巨大差距,变成「k」的可能性较小。


提出的算法可以评估两种语言之间的接近度。事实上,当测试已知语言时,它甚至可以准确地识别语族。


DeepMind早有开发,识别石头上的希腊碑文


这并不是唯一将人工智能应用于失传语言领域的。 


DeepMind 开发了一个名为Pythia的系统,该系统可以识别35000件包含300多万个单词的文物中的模式。


它设法从包括石头、陶器和金属在内的希腊碑文中猜出了1500年至2600年前遗失的单词或字符。

 

 

残损铭文:雅典议会关于管理雅典卫城的法令


人类现存语言约为5615种,如同象形文字一样,大多数曾经存在过的语言现已不再使用了,其中几十种也被认为已经消失,或未被破译。




如果没有它们,我们就有可能失去关于历史上使用它们的人的大量知识。团队的目标更为远大,他们希望日后能够靠几千个单词就能破译语言。


作者介绍


Jiaming Luo

       


CSAIL的一名博士生,也是MIT NLP小组的成员。在来MIT之前,他也在北大做过一些情绪分析和总结的工作。

 



参考链接:

https://venturebeat.com/2020/10/20/mit-csails-ai-revives-dead-languages-it-hasnt-seen-before/

https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021

http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf


推荐阅读

照片你随便拍,「光影」我任意调,MIT谷歌新研究,器材党老法师看了会沉默


点击“阅读原文”图书配套资源

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部