前言:
大家晚上好,上周没有给大家继续分享播放器的文章,我自己还在理顺来,加上在学习webrtc这块,马上就实现第一个类似于腾讯会议那种小项目;今天给大家分享一篇好文章,了解一下基础概念,为后期打下基础!
ffplay音视频同步分析:
由于音频和视频的输出不在同一个线程,而且,也不一定会同时解出同一个pts的音频帧和视频帧。更有甚者,编码或封装的时候可能pts还是不连续的,或有个别错误的。因此,在进行音频和视频的播放时,需要对音频和视频的播放速度、播放时刻进行控制,以实现音频和视频保持同步,即所谓的音视频同步。
在ffplay中,音频(audio)和视频(video)有各自的输出线程,其中音频的输出线程是sdl的音频输出回调线程,video的输出线程是程序的主线程!
音视频的同步策略,一般有如下几种:
-
视频同步到音频,即音频为主时钟
-
音频同步到视频,即视频为主时钟
-
视频、音频同步到外部时钟,即外部时钟(系统时间)为主时钟
-
视频和音频各自输出,即不作同步处理,或称之为各自为主时钟
由于人耳对于声音变化的敏感度比视觉高,因此,一般采样的策略是将视频同步到音频,即对画面进行适当的丢帧或重复以追赶或等待音频。
特殊地,有时候会碰到一些特殊封装(或者有问题的封装),此时就不作同步处理,各自为主时钟,进行播放。
在ffplay中实现了上述前3种的同步策略。由sync参数控制:
{ "sync", HAS_ARG | OPT_EXPERT, { .func_arg = opt_sync }, "set audio-video sync. type (type=audio/video/ext)", "type" },
在深入代码了解其实现前,需要先简单了解下一些结构体和概念:
-
pts
-
timebase
-
ffplay中的pts
-
Clock
pts是presentation timestamp的缩写,即显示时间戳,用于标记一个帧的呈现时刻。
它的单位由timebase决定。timebase的类型是结构体AVRational(用于表示分数):
typedef struct AVRational{
int num; ///< Numerator
int den; ///< Denominator
} AVRational;
如timebase={1, 1000}表示千分之一秒,那么pts=1000,即为1秒,那么这一帧就需要在第一秒的时候呈现在ffplay中,将pts转化为秒,一般做法是:pts * av_q2d(timebase)
ffplay的很多自定义结构体中也有pts字段,只不过是double类型,其实就是已经转化为秒为单位的pts值。
在做同步的时候,我们需要一个"时钟"的概念,ffplay定义的结构体是Clock:
typedef struct Clock {
double pts; /* clock base */
double pts_drift; /* clock base minus time at which we updated the clock */
double last_updated;
double speed;
int serial; /* clock is based on a packet with this serial */
int paused;
int *queue_serial; /* pointer to the current packet queue serial, used for obsolete clock detection */
}
这个时钟的工作原理是这样的:
-
需要不断“对时”。对时的方法set_clock_at(Clock *c, double pts, int serial, double time),需要用pts、serial、time(系统时间)进行对时。
-
获取的时间是一个估算值。估算是通过对时时记录的pts_drift估算的。
可以看这个图来帮助理解:
图中央是一个时间轴,从左往右看。首先我们调用set_clock_at进行一次对时,假设这时的pts是落后系统时间time的,那么计算pts_drift = pts - time。
接着,过了一会儿,且在下次对时前,通过get_clock来查询时间,因为这时的pts已经过时,不能直接拿pts当做这个时钟的时间。不过我们前面计算过pts_drift,也就是pts和time的差值,所以我们可以通过当前时刻的系统时间来估算这个时刻的pts:pts = time + pts_drift.
当然,由于pts_drift是一直在变动的(drift与漂移、抖动的意思),所以get_clock是估算值,真实的pts可能落在比如图示虚线圆的位置。
一般time会取CLOCK_MONOTONIC,即系统开机到现在的时间,一般都有几个小时;而pts是节目的播放时刻,比如从0开始,播放了10分钟,就是600s。所以,真实情况下pts_drift可能要比图示的大。
总结:
在了解了这些基础概念后,就可以开始阅读音视频同步的代码了。
如果对音视频感兴趣的朋友,可以加我微信:tu18879499804
我是txp,我们下期见!
文章来源:
https://zhuanlan.zhihu.com/p/44615185
本文分享自微信公众号 - TXP嵌入式(txp1121518wo-)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。