
摘要
本次以有道纵横产品为范例,阐述了有道AI团队在AI老师、人机对弈教学系统、复盘等技术问题上的解决方案和解决思路,展现了有道围棋AI团队从用户角度出发,针对不同用户需求,竭力为用户打造最好的产品体验。
youdao
1背景
有道纵横是网易有道旗下专为4-8岁孩子量身打造的在线少儿围棋产品,于2019年启动,自研了全国首部在线交互式围棋动漫课程,从孩子的理解力和喜好出发,采用直播互动的课程形式将围棋知识变得简单有趣、易懂好学,帮助孩子掌握围棋的各类规则和技巧。
不仅如此,课后还设有AI对弈功能,能够智能识别孩子的段位水平匹配对局练习,从根源培养孩子的思维习惯。每局对弈结束后的智能分析,会从大局观、计算力、稳定性、战斗和棋型五方面进行全方位分析,帮助孩子在复盘中进步。有道围棋AI团队隶属于有道人工智能语音组,负责有道纵横产品与围棋AI相关的研发、落地工作,主要发力点在于AI的人机对弈和复盘。
Google 旗下 Deepmind 提出的 AlphaGo、AlphaGoZero、AlphaZero 系列算法展示了深度强化学习在棋类领域的超凡能力。2016年 AlphaGo 横空出世击败欧洲围棋冠军樊麾二段,2017年 AlphaGo 以4:1击败韩国围棋职业九段,14个世界冠军得主李世石,2018年无师自通的 AlphaGo Zero 以3:0击败最年轻的六冠王柯洁九段。至此以后再无人质疑 AI 在围棋领域的霸主地位,同时引发了职业棋手学习 AI 招法的热潮。在职业围棋赛场上,时常出现“狗招”,学习、研究 AI 招法的背后的逻辑,已是职业棋手的必修课。
图一 有道纵横产品图(1)
2 现有AI技术存在的问题
Github 上已经有了 Leela Zero、KataGo 等基于 AlphaZero 系列算法的优秀围棋 AI 开源项目,它们的主要目标是提升 AI 的棋力,目前上述围棋AI的棋力已远超人类职业棋手。然而当强AI应用在少儿围棋教学时,出现了“水土不服”的现象,比如:
AI 实在是太强了,人很难在与 AI 对弈的过程中体会到“旗鼓相当”的感觉,这极易引起用户的挫败感。
授人以鱼而未授人以渔,AI 只告诉人应该这么下,而不教会人为什么这么下。
AI 的学习路径与人大相径庭,一些在人早期围棋学习阶段就可以掌握的知识(如征子),AI 在训练后期才掌握。
3 解决方案及思路
3.1
人机对弈
一些其他方案在实现人机对弈系统时,一般使用 AI 训练过程早期的模型,然后使用模型的 top-n输出,随机抽样进行落子行为,避免 AI 落子过于单一。
这种方案除了易于想到之外没有其他优点,由于早期模型训练量不大,采用top-n的采样方法会导致AI的招式没有条理,用户很容易诱导出这种落子逻辑的漏洞(如征子)。
其次,在对弈过程中,AI模型和落子策略是固定的,但我们在实践中发现,AI对于围棋中的布局、中盘、收官等阶段的招法学习速度并不相同,AI对布局的掌握速度远远超出中盘、收官,使用相同的模型和策略会导致AI在整盘棋的表现差异极大。
再者,AI的自对弈训练中,没有定式的概念(定式是围棋高手在某些局部的经验总结,用户学习定式走法可以快速提升棋力),低水平的AI很难在局部中下出最优解,而人可以通过学习高手的棋谱快速掌握局部最佳下法,即使人的水平并没有达到提出该定式的围棋高手水平。上述问题的根源在于AI与人的学习路径大相径庭,难以直接移植。

3.2
复盘
复盘指对局完毕后,复演该盘棋的记录,以检查对局中招法的优劣与得失关键。一般用以自学,或请高手给予指导分析。下围棋的高手都有复盘的习惯。
复盘就是每次博弈结束以后,双方棋手把刚才的对局再重复一遍,这样可以有效地加深对这盘对弈的印象,也可以找出双方攻守的漏洞,是提高自己水平的好方法。
在有道纵横产品中,AI 承担了复盘老师的角色。
一些其他的方案中,AI复盘主要是展示整局棋的胜率或目差曲线、AI的推荐变化图、以及一些基础的统计数据,这些内容更适合专业的用户,专业用户的需求在于快速定位自己下的不好的棋,然后根据AI提供的变化图等推理AI的落子逻辑,此类用户仅根据围棋AI引擎的原始数据就可以完成自我学习。但是当用户群体定位到少儿时,上述的解决方案效果就会大打折扣,少儿用户很难理解统计数据背后的意义,同时对AI提供的变化图的逻辑缺乏分析能力,甚至注意力很难集中在变化图上,仅关注整局棋的胜率、目差的变化。此外,其他方案采用的复盘使用的GPU资源消耗很大,有的用户甚至需要半天时间才能拿到对局的复盘结果。
· 性能优化,在少儿用户的使用场景中,用户并不需要每一步棋都使用高算力AI产生的复盘结果,我们制定了根据局面的复杂程度分配算力的方案。

4 有道围棋AI团队的成果
有道围棋AI团队隶属于有道人工智能语音组,负责有道纵横产品与围棋AI相关的研发、落地工作,主要发力点在于AI的人机对弈和复盘。现有的工作成果引用一段CEO周枫的话:
有道纵横做到了什么?
总体上有道纵横是一个面向孩子的围棋启蒙课程,大班直播、名师教学,在边学边练过程中有丰富的互动,同时也具备AI对弈能力。与此同时,有道纵横将教、学、练、测、评五个环节做了非常好的整合,形成了这个产品的全貌。

youdao
5 总结与展望
ydtech
目前围棋 AI 的技术主要集中于提升 AI 水平上,这固然为专业用户自我训练提供了极大的便利,但由于高水平 AI 背后的行棋逻辑较为高深,当围棋 AI 为少儿用户提供服务时,少儿用户很难直接从高水平 AI 获取知识。
接下来我们希望可以在人机对弈场景中,为用户提供水平更合适、逻辑更连贯的 AI 陪练;在复盘场景中,为用户提供更清晰易懂的复盘报告。
往期推荐


本文分享自微信公众号 - 有道技术团队(youdaotech)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。