樊鸿飞,金山云高级研发总监,北京大学计算机科学与技术专业博士,负责视频云的VR、视频编码、人工智能等技术线研发,近年来主要从事沉浸式视频、视频编码、图像处理、计算机视觉方向上的研究与技术落地,主要研究与应用成果发表于国际顶级期刊IEEE TIP、IEEE TCSVT、IEEE TMM等。
以下内容由LiveVideoStack与樊鸿飞的采访整理而成。
提升沉浸感
樊鸿飞:提升沉浸感的根源在于传输更高分辨率的图像画面,金山云在确保画面质量的前提下,提供110+°广角、360°全景的4K/8K视频的实时编码/渲染能力。同时,我们采用高清+低清的双路流方案,在画面边缘(偏离视轴最远处)使用低清画面,达到更大的视角覆盖率,能够显著提升画面沉浸感。
在ROI方面,我们使用基于人工智能的显著度度量+目标检测算法,来识别100多种人眼显著的图像内容区域,对这些像素区域分配较低的QP来提升画质。
LiveVideoStack:您认为沉浸式视频在超高清转码下的平均延迟目前大概是多少?真正的沉浸体验目标延迟是多少?您认为多少是优秀,多少是及格?
樊鸿飞:一般情况下,沉浸式视频要求具备超高清和低延迟互动两个能力。针对弱互动来说,延迟一般可以允许高于3000ms;对于一些低延迟直播,例如主播需要根据情况及时回应观众的弹幕、打赏信息等场景,一般需要800ms~1200ms左右的延迟;对于中互动场景,例如主播之间的连麦,需要400ms~800ms;对于强互动来说,是对延迟零容忍的,比如视频会议,甚至更高要求的云游戏,则需要延迟低于400ms。
对于低延迟直播,仍然能够允许在云端进行转码处理,但处理总延迟不能高于100ms。对于众互动甚至强互动的应用场景下,已经开始需要在终端完成全部处理,终端的整体处理延迟不能超过200ms,一般留给编码器的延迟不能高于80ms。
LiveVideoStack:您认为目前5G技术对沉浸式视频的助力有多大?助力点具体体现在哪些方面?您如何看待它的未来趋势?
樊鸿飞:首先,5G的移动边缘计算(MEC)、网络切片等技术特性能够极大降低边缘推拉流产生的链路延迟,尤其是在一些类似于FOV这种终端跟边缘需要进行频繁上下行通信的场景中将产生非常大的增益。
其次,5G的大带宽将使得终端能够轻易的获取8K乃至12K、16K的码流,而更大的分辨率意味着更强的沉浸感。
最后,5G的高速率低延迟将催生出大量沉浸式直播应用场景,而受限于4G的局限性,这些场景在当下是十分稀缺的。
对泛娱乐领域的期待
大会分享预告
LiveVideoStack:对于本次 LiveVideoStackCon 2021 上海站的分享,您会带来哪些令人期待的具体内容呢?
樊鸿飞:这次LVS2021上海站,我将分享在超高清沉浸式视频应用中,我们对编码器的性能做的优化。由于沉浸式视频的超高分辨率,这个场景对编码器提出了很高的要求,需要编码器在有限的码率内保证高清晰度的编码质量。客观指标(如PSNR、SSIM)对视频质量的衡量是有局限性的,因此对客观指标下的视频编码优化无法达到主观画质的最优。金山云通过预处理、JND、全景视频投影转换等算法,考虑人眼对不同频域的感知,最优化相同码率下的主观画质,持续为用户提供优质的直播、点播服务。

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。