受访对象 | 张贤国
策划、编辑 | Aris Wang
再次见到张贤国本人,他依旧定格在我们前几次采访印象中,每讲起技术圈内话题,就滔滔不绝。
最近,Vision Pro的发布,点燃了空间计算新时代的热潮。作为腾讯云架构平台部香农实验室(以下简称香农实验室)的技术负责人,张贤国向我们分享了香农实验室在视频编解码和空间媒体处理能力的最新进展与布局。
“像空间媒体处理中的空间视频8KHDR、MV-HEVC等编码能力,香农实验室已经算(行业内)布局比较早的”,张贤国说。譬如8K极速高清实时编码能力,早在Vision Pro发布前,香农实验室已经面向广电超大屏幕领域,用软件编码搭建了高压缩率的8K、HDR、422格式、130mbps码率传输的实时转码系统。在相关项目竞标中,依托于该系统,腾讯云是唯一一家可以满足转码客观质量指标的公司。
同样,香农实验室也早在苹果公开支持MV-HEVC硬件编码之前,就在探索该编码在裸眼3D系统中的体验。通过各项实验结果表明,在关键帧间隔较大的互联网应用下,MV-HEVC可以进一步节省20%的3D影视传输带宽。
张贤国投身视频编解码行业,至今已十余年之久。他指出视频编码领域最吸引他的地方在于,它是一个不断追求极致、并且有很完善的评价体系的领域,哪怕一个很小的优化都可以被看到;其次,在于它跟大家的生活息息相关,做好视频编解码是可以给大家带来切实的体验提升。
对于张贤国来说,视频编解码一直是他可以充分追求技术和工作价值的领域。
而在腾讯的这些年,张贤国对于技术的认知观念也不断发生变化。最初,张贤国认为,既然要做技术,那就必须做到行业领先。
但现在,随着技术研发与业务部门的深入融合,张贤国开始意识到,正确的技术发力方向绝不是往“行业顶尖”单边看齐。
“技术在赛事中拿到第一是一个纬度,技术能够帮业务解决问题是另外一个纬度,”张贤国说。做技术能否找准业务真正痛点——这是张贤国个人及整个团队当下最关心、且认为最重要的问题。
正如张贤国所说:“不要绑定业务,要去解决痛点。”
以下是我们近日和张贤国的精彩对话,经受访对象要求与整理,有删减:
01
香农落地进展与现状
LiveVideoStack:很关心香农实验室的最新近况,无论是团队、还是腾讯自研编解码的进展,比如最近腾讯V265的进展,可以和我们讲讲吗?关注到最新进展 能讲讲背后团队们所做出的努力吗?
张贤国:香农实验室从2017年开始陆续主导研发了V265服务端和终端编码、TXAV1编解码器、与兄弟团队合作研发了HEVC沧海芯片,支持了腾讯云MPS点播、直播、RTC服务的快速发展。最近,在解决后面会提到的五个技术难点上,香农实验室也取得了一些进展:
在超高清晰度上,腾讯V265/TXAV1已支持8K@10bit@422@130mbps级别的1U服务端实时转码;在满足低延迟实时直播的同时,压缩率仍可保持比x265-medium节省10%;在超真实感3D应用上,腾讯V265首先支持了Vision Pro可硬解的MV-HEVC编码,相比双视点独立编码可节省20%以上码率;
在超低延迟上,我们通过对沧海芯片的码率控制进行优化,实现了高画质的零延迟转码,提升了云游戏等对延迟高要求场景的体验;
在超实时交互上,香农实验室研发了高性能高压缩率的终端编码软件,可满足各类终端RTC应用实时性需求,同时节省25%以上码率;
在超高压缩率上,我们不仅持续优化V265/TXAV1和沧海的压缩率,还面向视频图片长期存储场景,自研了私有格式 TVC,期望通过无损压缩或者浅压缩的方式节省海量的视频存储成本,也可以用于其他对高压缩率有需求的、可以接受软件解码的业务场景。
LiveVideoStack:今年上半年您和团队的精力和重心会更多的花费在哪里?比如编码器的落地?
张贤国:工作重心分为两个方向——一个是业务落地,另一个是新技术规划。
今年团队的重点第一个方面确实是在编码器的落地,包含新一代TXAV1视频、图片编解码在公司内外业务的推广,以及V265编码在各类SDK云上售卖场景中满足业务直播、点播、RTC的能力要求。后者还好,因为H.265的生态很健全,只要需求明确,通过团队成员协同贡献就一定能按时完成。在TXAV1业务落地上的投入要更多一些。
LiveVideoStack:接下来再让您谈一谈TXAV1落地问题,以及您最近关注的新技术。
张贤国:首先是压缩率要求;相比用户已升级的265编码, TXAV1必须在各场景下拥有明显的压缩率节省,尤其是在直播场景上,香农实验室经过一年多的加速才让TXAV1在直播能力上全面超过V265,在远高于MSU比赛30fps要求的实际直播场景,TXAV1也能相比V265有10%的码率节省。
其次是编解码生态;我们欣喜的看到,AV1的解码占比在迅速提升,2021年后出厂的大部分MTK芯片、2023年新发布的高通旗舰芯片、2022年后的三星旗舰芯片都已经支持AV1硬解,andriod/浏览器内核对AV1图片和视频的软解系统支持也已经全面铺开。
但目前更现实的是,目前安卓的系统原生软解能力尚不完善,iOS也只能支持AV1 real time工具下的视频软解,于是就要求我们在编解码协同优化上投入更多,提供解码速度更快、cpu消耗更低的软件解码库,上线TXAV1的播放覆盖率越高客户就越有升级的动力。
经过长期的努力,目前TXAV1解码已经具备跟265软解相当的性能,并且通过跟播放器app协同优化,支持了包含exoplayer在内的多种播放内核流畅播放。近半年来已经有十几个业务通过腾讯云MPS接入我们的自研AV1视频、AVIF图片编解码,我们还在继续努力。
此外,当下行业的新动态,以Vision Pro为代表的空间多媒体处理跟视频编码的结合技术,也是我们当下逐渐探索的方向。
LiveVideoStack:直到目前为止,您和团队还发现哪些技术难点待攻破?包括目前正在攻破的技术难点又是什么?
张贤国:从编解码角度来说,其实我们一直在钻研这五个技术目标——超高清晰度,超真实感,超低延迟,超实时交互,超高压缩率。
广电、VR等超高清业务要求自研服务端编码器具备8K+HDR+高码率+非分布式服务端实时+高压缩率的实时低延时编码能力,在广电视频源压缩时将卫星信息高质量实时地压缩成低损失视频源,用于互联网分发。在VR 4k/8k直播时,编码器则要保证即便在网络可承受的10-40m码率段,视频画质仍然可以高保真。
3D视频等真实感应用要求自研编码器支持MV-HEVC/3D-HEVC/360degee等真实感扩展格式,且具备健全且高压缩率的编码能力,以及健全的转码链路。
云游戏和RTC等超低延时业务要求自研编码芯片具备低延迟、高并发和高压缩率码控能力,要求自研RTC终端编码器具备更高清晰度实时能力、更高压缩率格式支持和进阶码率控制能力。
大流量长短视频高压缩率点播应用要求处理和编码相结合方案能支持高压缩率的感知编码能力、要求编码芯片兼具低成本和高压缩率的特性,还要求提前研究商业编码器的能力极限、在编解码闭环业务使用自研编解码实现更高的压缩率。
这些技术在新应用大规模开展之前要做好充足的技术储备,对编码团队的研发挑战很大,我们的重点也是在这些场景的商业化能力提升上。
LiveVideoStack:在目前行业背景下,编解码团队的发展路线、思考?
张贤国:我们将从如下三个角度不断为团队发展注入动力。
首先,长期坚持,分组协作,夯实基础:我们会在齐心协力夯实每个标准的编码基础之上,按照不同的研究方向通过分组协作的方式兼顾好多个优化目标,在行业竞争和业务打磨中总结经验回馈基础编码能力。
其次,紧贴业务进行定制优化:编解码目前已经进入到不单纯以大测试集的客观结果来评价编码器的阶段,已经进入面向多个垂直领域结合主客观来评价视频处理能力的阶段。所以编码团队需要具备处理和编码协同优化、编码器周边CAE和面向主观评价指标定制优化能力,并细分出典型的垂类场景如屏幕分享、带货直播、游戏、新闻短视频等内容进行定制的主客观优化。
第三是与其他技术形成合力打造口碑产品:要形成竞争优势并充分发挥编解码器能力,需要综合考虑端到端系统、安全服务、传输加速和画质增强等方面。以3D视频服务为例,整个3D真实感内容处理包括画质增强、视差生成、HDR色彩校正、直播点播转码优化、3D编码码率控制和标准支持、解码和渲染等复杂链路,这些环节相互依赖、不可孤立。
在行业竞争加剧,包含空间计算在内的新音视频业务机会开始浮现的当下,腾讯云会整合包含香农实验室的编解码在内的各类媒体处理能力,提供诸如腾讯EdgeOne一站式边缘安全加速服务的高性能解决方案,从而赋能整个行业。在出海市场这种难以整装售卖的领域,编解码团队会结合腾讯云MPS SDK的组件授权服务一致对外,扩大收益、摆脱内卷。市场规模越大,技术优化和人才吸引的空间也就越大。
02
“不聪明”的船长也要带船员看到希望
LiveVideoStack:相信在今年您团队为了继续巩固腾讯云的自研编解码在行业内的领先地位水平,腾讯内部事业群团队又有了新的目标规划,如果把目标拆解来看,分为哪些?
张贤国:前面讲的五个大优化目标可能有点大,具体总结来来说主要包含:V265/TXAV1编码在公有云点播、私有化SDK等领域的持续优化,V265/TXAV1在各直播垂类场景的深入优化,沧海芯片的在云游戏、直播等领域的大规模落地,面向8K\3D等扩展场景的技术储备,下一代私有格式的编解码复杂度优化,以及终端编码在更高清晰度、AV1等新编码格式上的能力扩展。
LiveVideoStack:直到现在,您觉得香农实验室在视频编码优化这条路上还有多少功课要做?达到最优理想的视频压缩标准了吗?
张贤国:其实还远的很。首先现有标准的服务端、终端编码软件,V265/TXAV1的压缩率一直在持续提升。以TXAV1为例,尽管目前AV1已经在直播业务上走到全面领先了V265,但领先幅度仍然有优化空间;此外,我们还需在终端软件编码上对AV1进行长期优化,充分发挥AV1标准在压缩率、屏幕视频编码、变分辨率预测等功能上的优势。
其次对于下一代编码芯片产品,我们仍在协同开发中:在新产品中,我们将进一步增强HEVC能力,同时加大投入支持新一代AV1、VVC标准和各类VPU能力,以支持更高的压缩率和定制化丰富的多媒体转码服务。
再以我们最新披露的TVC私有编码格式为例,私有格式的应用场景比较受限,整个解码复杂度必须在可控范围内。因此,TVC并没有在解码端使用高消耗的智能编码工具,在迭代过程中也是极为关注软件解码复杂度的。TVC充分吸收了团队过去六年在V265、TXAV1研发的成功经验,在充分调研最新MPEG和AOM等标准组织的新技术基础上,吸收智能编码、浅压缩等新标准的低解码消耗优化经验,基于软解复杂度而非硬件解码复杂度进行优化工具设计,实现编码压缩率和软件编解码复杂度的平衡。该格式目前虽然理论复杂度控制在AV1标准的两倍以内,但软件解码优化还需时间,编码压缩率也有很大的提升空间,离正式商用还有距离。
LiveVideoStack:香农实验室在追求超高清晰度、超真实感3D、超低延迟、超实时交互、超高压缩率 ”的这五个目标上,有没有一套研究路径或者通过实践总结出的方法论?
张贤国:不同团队其实追求这五个技术目标上的路线都是不同的,由于香农实验室是藏在各大业务团队背后的团队,所以技术路线上会更长期一些,尽量提前准备、将基础夯实再去接受业务的锤炼和优化。
因此,对于每一代标准,我们一般会先以超高压缩率为目标,最优化离线编码场景的压缩率,并夯实离线编码下的多线程设计、汇编、数据结构访问、码率控制、预分析处理和高性价比快速算法;然后以离线编码基础,通过快速算法迭代、实时编码架构兼容、并行架构优化、工具添加等在同一套代码下支撑实时编码并外延至8K\HDR\屏幕视频压缩\3D编码等超高清、超真实感实时场景;
同样以离线编码为基础,我们会搭建编码芯片的算法原型,包括定义芯片规格和流水线架构、重新设计硬件快速算法,硬件化预分析处理和码率控制实现等,实现压缩率和芯片能力的平衡。
以实时编码为基础,我们会选择适当时机启动终端编码,由于终端编码对复杂度要求远高于服务端编码,我们会新建立一个代码仓库,对服务端编码中不需要的功能进行裁剪、对数据结构进行重构,支持终端编码的新需求的同时小步迭代完成数倍以上的加速,最终实现终端设备的高覆盖。
经过这样的实践过程,就可以在3年左右完成对一个新标准从离线编码、实时编码到芯片编码、终端编码的各类场景的全支持。不过支持是一方面,要实现行业领先,则需要在这些编码器对应的速度档位上、码率控制上、数据结构上不断精益求精,实现压缩率、速度和能力支持的不断提升。
LiveVideoStack:您们团队的研究工作灵感来自于哪里?动力是什么?
张贤国:团队研发分新领域研究和业务技术优化两个方面,在新领域研究层面,学术文献一直是很重要的灵感来源。
在业务技术优化方面,实验分析和团队内沟通碰撞是我们最主要的灵感来源。通过在代码中添加大量的测试分析逻辑,可以基于这些实验数据不断产生新思路和新方法,最终在实施过程中去伪存真。此外,业务发展的需求、行业峰会等也会给我们很多启发,这也是我们每年都参加MSU、Livevideostack会议的原因。通过这些方式,我们能管中窥豹,及时发现新的技术方向,实施并突破。
香农实验室自成立以来,团队成员特别稳定,主要原因是大家相同的核心动力和集体荣誉——做行业领先的视频编解码服务,以此为动力,大家能够齐心协力把几类编解码服务做好。
香农实验室团队成员
LiveVideoStack:Vision Pro的发布,标志着空间计算的新时代正式到来,我相信苹果将这种影响力激发了您的思考,那么您认为直到现在,香农实验室还需要积累哪些空间媒体处理能力?
张贤国:像空间媒体处理中的空间视频8KHDR、MV-HEVC等编码能力,我相信我们团队已经算布局比较早的。
譬如8K极速高清实时编码能力,早在Vision Pro发布前,我们已经面向广电超大屏幕领域用软件编码搭建了高压缩率的8K、HDR、422格式、130mbps码率传输的实时转码系统,并且该系统仅使用一台1U的服务器进行搭建,不使用基于多台服务器分布式转码,从而保证了该转码系统的低转码延迟和低部署成本。在相关项目竞标中,依托于该系统,腾讯云也是唯一一家可以满足转码客观质量指标的公司。空间计算的到来,该系统将会有更广阔的应用空间,我们也会根据具体的空间计算的能力要求去优化8K极速高清的产品能力,适配更多业务。
再比如MV-HEVC编码的支持,Vision Pro支持MV-HEVC的解码支持实际上是硬解,理论上只需在芯片firmware层支持参考帧替换就能完成对MV-HEVC码流的解码,这正是MV-HEVC标准设计的巧妙之处。
而香农实验室则早在苹果公开支持MV-HEVC硬件解码之前我们就在探索在裸眼3D系统中支持MV-HEVC软件编解码,旨在提升裸眼3D的会议体验。在空间到来的背景下,我们就适时地将MV-HEVC的支持添加到我们基于V265的服务端转码系统中,进一步满足3D视频内容点播、直播需要,实验结果表明,在关键帧间隔较大的互联网应用下,MV-HEVC可以进一步节省20%的3D影视传输带宽。接下来,我们将会从码率控制、率失真优化等各个角度去优化这些内核能力。
香农还在努力的领域是空间视频的生成和处理能力,比如对输入的8K视频进行质量修复提升、对3D立体视频进行视觉矫正等,这些空间视频的高质量处理不仅有利于最终的画质呈现,也会跟最终编码压缩率密切相关,我们还需要持续学习,补短板。
03
进化与升级
LiveVideoStack:您如何看待视频编码技术应用场景上的演化?比如浅压缩?
张贤国:总体上,我们要相信视频编码技术的应用场景一定是沿着更高清、更真实感、更低延迟、更实时交互、更低码率方向发展,但其中会有一定的曲折过程。比如去年降本增效以来,很多业务都将视频的传输分辨率下降了,这里不仅有低分辨率高清晰度的技术优化,也有各业务从成本节省角度的考虑。
但究其根本,是因为现有的移动设备上的视频应用,对8K/3D等应用没有明显的需求。从广电、互联网电视、长视频APP到短视频,视频应用经历了数个阶段,应用的演化一定是伴随着终端设备和通信技术的变革的。如果空间计算设备能够兴起,我相信一定会有新的应用场景,也会对视频编码技术向着这五个方向提出更高的需求。
其次,浅压缩其实是细分性的体现,就在大部分标准都在追求通用各码率段更高压缩率、更高画质的时候,浅压缩提出单独为高保真画质区间进行压缩率优化,所以研究垂类领域、特定分辨率、画质区间的优化也是视频编码技术的一个重要发展方向。
LiveVideoStack:您如何预测端到端AI编解码的未来,从图片编码到视频编码?
张贤国:香农实验室在2020年以来也一直在做一些端到端编码的研究,在GPU能力的加持下,我们早在2021年就搭建过一个超低码率“非保真”AI人脸视频编解码原型,支持720p,码率是传统编码的1/10。
最近,香农实验室还研发多机位裸眼3D会议直播编码,给用户超真实感的会议体验。再比如我们的私有编解码TVC,也是一种应用了低复杂度AI能力的端到端编码,满足公司内闭环的视频图片存储成本节省需求。这些都是一些端到端AI编码的应用方向,在新产品应用上无疑有很多的可能。
但我们应该清醒的认识到,端到端AI编解码其实有一个基础前提——端到端的计算能力基础,我们要做基于AI的端到端视频图片编码一定要进行认真仔细的场景评估,在终端解码能力有限、生态非闭环的系统,传统非端到端编码具有低计算能力消耗、强设备兼容能力的优势,仍然是我们要重点投入的方向。
LiveVideoStack:想要做变革性的视频编码框架有没有可能?
张贤国:没有什么不可能的。做变革性的视频编码我认为首先会在某个专门的领域取得突破,比如基于专用设备的会议场景、比如可用于高帧率监控的脉冲视频编码。
我们要看到,视频的场景是复杂多变的,现有的视频编码框架源自1.0版基于卫星信号、机顶盒和电视机等设备的广电视频,也适用于终端能力有限的2.0版本基于台式机低宽带网络的长视频点播、3.0版本的基于移动终端、4G及更高带宽的直播和短视频。
但在下一个4.0时代,新的设备及网络能力、新的视频拍摄及显示条件都可能会刺激新的编码框架的诞生,脉冲摄像机、VR头显、点云视频等等都可能会诱因。
LiveVideoStack:人工智能技术日益成熟,音视频技术的未来该如何发展?
张贤国:显而易见,人工智能发展一定会促进音视频技术从行业应用到优化技术全维度的提升。人工智能技术的发展会显著提升视频业务量、也会促进更多的音视频应用的诞生。举例来说,AIGC能力的提升会产生更多的自媒体内容,大模型能力的提升会提升自动驾驶、机器视觉、人机交互等视频相关应用的发展。
不敢谈整个音视频技术的发展方向,但至少在编解码领域,更多的视频带宽、更多的视频应用,一定会对视频编解码和处理效率提出更高的要求。此外,编码的信息也会不局限于视频纹理,包含视频深度信息、空间信息、特征信息等也会跟视频纹理相结合,在追求更高压缩率的同时,追求更高的真实感体验。
需要压缩的视频数量会越来越多,需要压缩的单一视频信息会越来越大,这一定会给我们这些从业者带来新的机会。
04
对技术仍保有敬畏之心
LiveVideoStack:这是您从事视频编码研发工作的第几年了?对自己当前的工作现状是否满意?
张贤国:从2007年研究生入学算起迄今已经有17年。谈不上有多满意,只能说比较欣慰的是,这十几年来我不曾懈怠,一直在这个领域坚持。目前能在香农实验室找到几十位志同道合的同学在视频编解码这个方向不停地深耕打磨,在取得一些成绩的同时,也能与行业同仁一起将中国的商业编码器能力优化至国际领先水平。短短人生数十载,在工作上能不负韶华、有益行业,也算不辜负学校、老师和前辈们的栽培。
LiveVideoStack:在腾讯的工作生涯中,让您觉得从工作本身内容上,最有成就感的一件事情是什么?
张贤国:如果仅仅指出一件事情,**我觉得我们不仅是技术要做到行业领先,也在追求社会价值,技术的受益者不光是腾讯和腾讯云的客户,还有用了腾讯服务、真正节省了成本提升了体验的消费者。**视频编解码就像是音视频技术的水与电,更领先的编解码能力能让大家在线上教育、视频会议、影视娱乐等日常生活的方方面面节省人们的日常网费开支、提升包含流畅度和画质在内的各类主观体验、更节省公司的运营成本。我们团队与行业共同努力,提升了国内音视频行业“水与电”的基础设施能力,这是最大的成就感。
LiveVideoStack:您团队招揽人才的标准是什么?又是一年毕业季,有什么心得想要分享给准备从事音视频技术的同学们?
张贤国:聪明、学习能力、责任心是我们对校招同学的首要的三个要求。编解码技术也一直在求新求变,从学校学到的知识只是基础,是否能跟上前辈们的节奏并有潜力做出新意是我们考察的重点。对于社招同学,工程能力、全面性和技术专长则是我重点考虑的。
我不敢说从事整个音视频技术需要什么能力,但打造一个领先的编码团队,需要社招同学和培养两三年后的团队成员在如下一个或多个方面具备突出特点,具体包含:数据结构和框架优化,汇编和数据流优化,并行机制和损失控制,模式决策快速算法,码率控制和前处理算法,标准工具理解和实现,非标压缩率提升算法,编解码芯片架构设计,编解码芯片CMODEL实现,解码器设计和优化,终端编程开发能力,业务和转码系统搭建能力,质量评价和主观优化技巧,机器学习工具灵活应用。
LiveVideoStack:再给您一次机会,还会选择这个专业嘛,还会选择从事这个领域吗?
张贤国:专业和行业是不同的,大家一般会去主动选择计算机、生物制药、电池技术等等不同行业,但具体到从事的专业其实很多时候是它选择了你。比如我做视频编解码也是一些巧合:当初在北京大学计算机系读本科的时候,我最感兴趣和成绩不错的专业课是数字逻辑,因而2006年初大三进实验室做科研的时候就选择了体系结构实验室——国内早期从事自研CPU芯片的团队。由于CPU芯片中的多媒体协处理器也是一个重要的组件,阴错阳差,我的第一个项目工作是学习视频编解码原理、并做一些MPEG-4编码汇编指令优化。
当我发现自己还是比较适合这个偏后端细节优化的技术方向时,我便坚定得去夯实基础然后加入高文院士来北大建立的数字视频编解码国家工程实验室,成为了高老师在北大招的第一个博士。所以在专业选择上,我相信机会会平均分给每一个人,关键在于能否有足够的分辨力去判断什么才是自己最适合的方向,然后用责任心、学习能力和努力去抓住这些机会。
谈到最后,张贤国对于近期的“技术爆炸”深有感触。对于非专业领域,张贤国会恍然发现像大模型、脑机接口等技术会爆炸式的产生广泛的市场价值,其次对于自己熟知的领域,也发现竞争对手的进步如此之快。这实则印证了在互联网行业,新优化技巧的保鲜期一瞬即逝,需要投入积累更多新技术才能持续保持领先。
同时,他以这句话作为结尾——
“技术有时往往是一瞬间的突破,所以我们时时刻刻要对技术保有敬畏之心,对竞争对手保持足够的敬畏和关注。”
Hi,LVS最近重新对公号原创内容栏目做了思考,未来我们希望通过此栏目发现多媒体生态当下的新变化,痛点以及如何推动行业持续繁荣发展,将会产出更多原创深度报道文章。
如果你对多媒体圈子好奇,或战斗在行业发展前线,愿意分享自己的洞察和思考,尤其是有选题线索来爆料、寻求报道,欢迎联络笔者。WeChat:XinWell0709
Email:aris.wang@livevideostack.com
▲点击“阅读原文”▲
跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息