DeepMind和牛津联合打造古文修复AI,2500年前残破碑文一眼补齐

作者|夏草

来源|新智元


研究人员表明,深度学习可以帮助专家学者恢复古希腊碑文文字。由牛津大学和DeepMind的研究人员共同打造的AI工具Pythia,可以通过训练神经网络来猜测古希腊碑文中缺少的单词或字符。


这些文字刻在各种材料的表面上,包括石材、陶瓷和金属等,一般都有着1500至2600年的历史。据《新科学家》报道,AI已经在破译受损文字方面击败了人类。


在对比测试中,AI尝试填补2949个受损铭文中的空白,而人类专家所犯的错误比AI多30%。而人类专家们花了2个小时才获得了50个铭文,Pythia仅花费几秒钟就给出了整个文字排列的猜测结果。

 

从一开始,研究人员就明白古代文本恢复是一项耗时的任务,甚至对于专家级的文字学家来说也是如此。他们在两名具有专业知识的博士生的帮助下,评估了目前手头的文字修复任务的难度,希望由此判断我们AI模型的影响力”。


研究论文作者之一于上周五在《新科学家》杂志上撰文表示,在填充遗漏的单词方面,人工智能的表现似乎比人类更好,但这不是取而代之的竞争。相反,人工智能技术“可能是最有用的协作工具,研究人员可以使用它来缩小备选文字的范围。

 

几个世纪以来,许多古老的铭文已经被岁月的风霜侵蚀破坏。作者表示:“只有一小部分尚存的铭文是完全清晰和完整的。”

 

在文本片段缺失的情况下,如何填补遗留文字的空白?这意味着要看铭文其余的部分,同时还要考察其他类似的文字。

在《新科学家》上关于Pythia AI模型的功能报告中简单介绍了其运行机制:(1)Pythia学会了识别35000个文物中的模式,超过300万个单词。(2)选择文字的模式包括出现不同单词的上下文、语法以及文字的形状和布局。这篇研究论文目前已经发表在Arxiv上。

Pythia不仅仅可以返回一种预测结果,而且可以返回多个预测结果,以及每个结果的置信度。


“具体地说,我们提供了使用波束搜索解码的前20个预测的集合。”通过20条建议来填补空白,由个人来选择最佳的预测建议。DeepMind的研究人员表示:“这项研究的目的完全是为了帮助人类专家的工作。”可以肯定的一点是,他们认为,Pythia可以作为数字化碑文文字识别的辅助方法。

 

研究团队还讨论了Pythia的未来潜力,他们指出,正是机器学习和文字学的结合,才有可能对刻板文字文化的研究产生有意义的影响。


Pythia AI工具的预测性能表现


“我们希望将Pythia和PHI-ML Pipeline开源,更好地帮助将来的研究,并激发进一步的跨学科工作。”Pythia的重要意义在于,这是“第一个使用深层神经网络从损坏的文本输入中恢复丢失字符的古代文本恢复模型”。研究人员认为,Pythia是“古代文本的修复的最先进技术”。

 

牛津大学网站上同样对Pythia的优势进行了评论。“该系统既可以在字符级别,也可以在单词级别工作,可以有效处理长期的上下文信息,以及不完整的单词表示形式。这使其能够适用于处理古代文本的所有学科(语言学,纸草学,医学)和任何语言(古语或现代语)。”

 

Pythia和PHI-ML Pipeline已在GitHub上开源。


参考链接:
https://techxplore.com/news/2019-10-deep-enlightens-scholars-puzzling-ancient.html
https://deepmind.com/research/publications/Restoring-ancient-text-using-deep-learning-a-case-study-on-Greek-epigraphy?

论文链接:
https://arxiv.org/abs/1910.06262


Github:
https://github.com/sommerschield/ancient-text-restoration


你也「在看」吗?👇

本文分享自微信公众号 - Python学习与数据挖掘(Python_CaiNiao)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部