文档章节

Android上一种效果奇好的混音方法介绍

叶大侠
 叶大侠
发布于 03/11 02:22
字数 1965
阅读 117
收藏 9
点赞 0
评论 0

如果对音频的一些基础知识还不是很了解的建议先去阅读一下上一篇文章:写给小白的音频认识基础

混音的原理

音频混音的原理: 空气中声波的叠加等价于量化的语音信号的叠加。

混音原理图

这句话可能有点拗口,我们从程序员的角度去观察就不难理解了。下图是两条音轨的数据,将每个通道的值做线性叠加后的值就是混音的结果了。比如音轨A和音轨B的叠加,A.1 表示 A 音轨的 1 通道的值 AB03 , B.1 表示 B 音轨的 1 通道的值 1122 , 结果是 bc25,然后按照低位在前的方式排列,在合成音轨中就是 25bc,这里的表示都是 16 进制的。

音轨合成图

直接加起来就可以了?事情如果这么简单就好了。音频设备支持的采样精度肯定都是有限的,一般为 8 位或者 16 位,大一些的为 32 位。在音轨数据叠加的过程中,肯定会导致溢出的问题。为了解决这个问题,人们找了不少的办法。这里我主要介绍几种我用过的,并给出相关代码实现和最终的混音效果对比结果。

线性叠加平均

这种办法的原理非常简单粗暴,也不会引入噪音。原理就是把不同音轨的通道值叠加之后取平均值,这样就不会有溢出的问题了。但是会带来的后果就是某一路或几路音量特别小那么整个混音结果的音量会被拉低。

以下的的单路音轨的音频参数我们假定为采样频率一致,通道数一致,通道采样精度统一为 16 位。

其中参数 bMulRoadAudios 的一维表示的是音轨数,二维表示该音轨的音频数据。

Java 代码实现:

@Override
        public byte[] mixRawAudioBytes(byte[][] bMulRoadAudios) {

            if (bMulRoadAudios == null || bMulRoadAudios.length == 0)
                return null;

            byte[] realMixAudio = bMulRoadAudios[0];
            if(realMixAudio == null){
                return null;
            }

            final int row = bMulRoadAudios.length;

            //单路音轨
            if (bMulRoadAudios.length == 1)
                return realMixAudio;

            //不同轨道长度要一致,不够要补齐

            for (int rw = 0; rw < bMulRoadAudios.length; ++rw) {
                if (bMulRoadAudios[rw] == null || bMulRoadAudios[rw].length != realMixAudio.length) {
                    return null;
                }
            }

            /**
             * 精度为 16位
             */
            int col = realMixAudio.length / 2;
            short[][] sMulRoadAudios = new short[row][col];

            for (int r = 0; r < row; ++r) {
                for (int c = 0; c < col; ++c) {
                    sMulRoadAudios[r][c] = (short) ((bMulRoadAudios[r][c * 2] & 0xff) | (bMulRoadAudios[r][c * 2 + 1] & 0xff) << 8);
                }
            }

            short[] sMixAudio = new short[col];
            int mixVal;
            int sr = 0;
            for (int sc = 0; sc < col; ++sc) {
                mixVal = 0;
                sr = 0;
                for (; sr < row; ++sr) {
                    mixVal += sMulRoadAudios[sr][sc];
                }
                sMixAudio[sc] = (short) (mixVal / row);
            }

            for (sr = 0; sr < col; ++sr) {
                realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
                realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
            }

            return realMixAudio;
        }

自适应混音

参与混音的多路音频信号自身的特点,以它们自身的比例作为权重,从而决定它们在合成后的输出中所占的比重。具体的原理可以参考这篇论文:快速实时自适应混音方案研究。这种方法对于音轨路数比较多的情况应该会比上面的平均法要好,但是可能会引入噪音。

Java 代码实现:

       @Override
        public byte[] mixRawAudioBytes(byte[][] bMulRoadAudios) {
            //简化检查代码

            /**
             * 精度为 16位
             */
            int col = realMixAudio.length / 2;
            short[][] sMulRoadAudios = new short[row][col];

            for (int r = 0; r < row; ++r) {
                for (int c = 0; c < col; ++c) {
                    sMulRoadAudios[r][c] = (short) ((bMulRoadAudios[r][c * 2] & 0xff) | (bMulRoadAudios[r][c * 2 + 1] & 0xff) << 8);
                }
            }

            short[] sMixAudio = new short[col];
            int sr = 0;

            double wValue;
            double absSumVal;

            for (int sc = 0; sc < col; ++sc) {
                sr = 0;

                wValue = 0;
                absSumVal = 0;

                for (; sr < row; ++sr) {
                    wValue += Math.pow(sMulRoadAudios[sr][sc], 2) * Math.signum(sMulRoadAudios[sr][sc]);
                    absSumVal += Math.abs(sMulRoadAudios[sr][sc]);
                }

                sMixAudio[sc] = absSumVal == 0 ? 0 : (short) (wValue / absSumVal);
            }

            for (sr = 0; sr < col; ++sr) {
                realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
                realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
            }

            return realMixAudio;
        }

多通道混音

在实际开发中,我发现上面的两种方法都不能达到满意的效果。一方面是和音乐相关,对音频质量要求比较高;另外一方面是通过手机录音,效果肯定不会太好。不知道从哪里冒出来的灵感,为什么不试着把不同的音轨数据塞到不同的通道上,让声音从不同的喇叭上同时发出,这样也可以达到混音的效果啊!而且不会有音频数据损失的问题,能很完美地呈现原来的声音。

于是我开始查了一下 Android 对多通道的支持情况,对应代码可以在android.media.AudioFormat中查看,结果如下:

public static final int CHANNEL_OUT_FRONT_LEFT = 0x4;
public static final int CHANNEL_OUT_FRONT_RIGHT = 0x8;
public static final int CHANNEL_OUT_FRONT_CENTER = 0x10;
public static final int CHANNEL_OUT_LOW_FREQUENCY = 0x20;
public static final int CHANNEL_OUT_BACK_LEFT = 0x40;
public static final int CHANNEL_OUT_BACK_RIGHT = 0x80;
public static final int CHANNEL_OUT_FRONT_LEFT_OF_CENTER = 0x100;
public static final int CHANNEL_OUT_FRONT_RIGHT_OF_CENTER = 0x200;
public static final int CHANNEL_OUT_BACK_CENTER = 0x400;
public static final int CHANNEL_OUT_SIDE_LEFT =         0x800;
public static final int CHANNEL_OUT_SIDE_RIGHT =       0x1000;

一共支持 10 个通道,对于我的情况来说是完全够用了。我们的耳机一般只有左右声道,那些更多通道的支持是 Android 系统内部通过软件算法模拟实现的,至于具体如何实现的,我也没有深入了解,在这里我们知道这回事就行了。我们平时所熟知的立体声,5.1 环绕等就是上面那些通道的组合。

 int CHANNEL_OUT_MONO = CHANNEL_OUT_FRONT_LEFT;

 int CHANNEL_OUT_STEREO = (CHANNEL_OUT_FRONT_LEFT | CHANNEL_OUT_FRONT_RIGHT);

 int CHANNEL_OUT_5POINT1 = (CHANNEL_OUT_FRONT_LEFT | CHANNEL_OUT_FRONT_RIGHT |
            CHANNEL_OUT_FRONT_CENTER | CHANNEL_OUT_LOW_FREQUENCY | CHANNEL_OUT_BACK_LEFT | CHANNEL_OUT_BACK_RIGHT);

知道原理之后,实现起来非常简单,下面是具体的代码:

        @Override
        public byte[] mixRawAudioBytes(byte[][] bMulRoadAudios) {

            int roadLen = bMulRoadAudios.length;

            //单路音轨
            if (roadLen == 1)
                return bMulRoadAudios[0];

            int maxRoadByteLen = 0;

            for(byte[] audioData : bMulRoadAudios){
                if(maxRoadByteLen < audioData.length){
                    maxRoadByteLen = audioData.length;
                }
            }

            byte[] resultMixData = new byte[maxRoadByteLen * roadLen];

            for(int i = 0; i != maxRoadByteLen; i = i + 2){
                for(int r = 0; r != roadLen; r++){
                    resultMixData[i * roadLen + 2 * r] = bMulRoadAudios[r][i];
                    resultMixData[i * roadLen + 2 * r + 1] = bMulRoadAudios[r][i+1];
                }
            }
            return resultMixData;
        }

结果比较

线性叠加平均法虽然看起来很简单,但是在音轨数量比较少的时候取得的效果可能会比复杂的自适应混音法要出色。

自适应混音法比较合适音轨数量比较多的情况,但是可能会引入一些噪音。

多通道混音虽然看起来很完美,但是产生的文件大小是数倍于其他的处理方法。

没有银弹,还是要根据自己的应用场景来选择,多试一下。

下面是我录的两路音轨:

由于这里看不到音频,你可以转到这里去体验一下。

  • 音轨一:

<audio controls="controls" height="40" width="100"> <source src="http://ohb4y25jk.bkt.clouddn.com/feb3bfa6-0984-4fa6-a406-228bf5ecb6ad.wav" type="audio/wav" /> </audio>

  • 音轨二:

<audio controls="controls" height="40" width="100"> <source src="http://ohb4y25jk.bkt.clouddn.com/8ac76e2a-792d-4716-907e-63fe602b54f1.wav" /> </audio>

  • 线性叠加平均法:

<audio controls="controls" height="40" width="100"> <source src="http://ohb4y25jk.bkt.clouddn.com/Average-audio.wav" /> </audio>

  • 自适应混音法:

<audio controls="controls" height="40" width="100"> <source src="http://ohb4y25jk.bkt.clouddn.com/AutoAlign-audio.wav" /> </audio>

  • 多通道混音:

<audio controls="controls" height="40" width="100"> <source src="http://ohb4y25jk.bkt.clouddn.com/ChannelAlign-audio.wav" /> </audio>

采样频率、采样精度和通道数不同的情况如何处理?

不同采样频率需要算法进行重新采样处理,让所有音轨在同一采样率下进行混音,这个比较复杂,等有机会再写篇文章介绍。

采样精度不同比较好处理,向上取精度较高的作为基准即可,高位补0;如果是需要取向下精度作为基准的,那么就要把最大通道值和基准最大值取个倍数,把数值都降到最大基准数以下,然后把低位移除。

通道数不同的情况也和精度不同的情况相似处理。

参考资料

  1. 多媒体会议中的快速实时自适应混音方案研究

© 著作权归作者所有

共有 人打赏支持
叶大侠

叶大侠

粉丝 56
博文 44
码字总数 67312
作品 5
广州
程序员
Android 5.1 Phone DTMF流程分析

写在前面的话 本文主要分析Android DTMF的流程,研究的代码是Android 5.1的,以CDMA为例,GSM同理。 在手机中,常用的DTMF场景是使用手机拨打一些服务台电话,比如客服热线10086、10000之类;...

linyongan ⋅ 2015/08/11 ⋅ 0

Android状态栏实现沉浸式模式

因为Android官方从来没有给出过沉浸式状态栏这样的命名,只有沉浸式模式(Immersive Mode)这种说法。而有些人在没有完全了解清楚沉浸模式到底是什么东西的情况下,就张冠李戴地认为一些系统...

津乐 ⋅ 04/20 ⋅ 0

Android动画:献上一份详细 & 全面的动画知识学习攻略

前言 动画的使用 是 开发中常用的知识 可是动画的种类繁多、使用复杂,每当需要 采用自定义动画 实现 复杂的动画效果时,很多开发者就显得束手无策 本文将献上一份动画的全面介绍攻略,包括动...

Carson_Ho ⋅ 06/06 ⋅ 0

说说 Android 中的通知(Notification)

当应用程序不在前台运行,这时就可以借助通知( Notification )向用户发送一些提示消息。 发出通知后,手机最上方的状态栏中就会显示一个通知图标,下拉状态栏就会看到通知的详情。 1 基本用...

deniro ⋅ 05/20 ⋅ 0

说说 Android 中如何使用摄像头和相册

很多 APP 应用都有用户头像功能,用户既可以调用摄像头马上拍一张美美的自拍,也可以打开相册选取一张心仪的照片作为头像。 1 调用摄像头 布局文件: 活动类代码: getExternalCacheDir() 可...

deniro ⋅ 05/26 ⋅ 0

Android插件化原理(一)Activity插件化

相关文章 Android深入四大组件系列 Android解析AMS系列 Android解析ClassLoader系列 前言 四大组件的插件化是插件化技术的核心知识点,而Activity插件化更是重中之重,Activity插件化主要有三...

刘望舒 ⋅ 05/29 ⋅ 0

直播,音视频编码器和解码器(EasyDarwin)-Android

使用摄像头采集视频数据,并通过MediaCodec进行H264编码,之后打包成RTSP格式并上传的。 TextuewView也提供了一个setTransform方法,该方法接收一个matrix参数,使用该参数对当前的渲染内容进...

shareus ⋅ 05/18 ⋅ 0

android开发常用工具类、高仿客户端、附近厕所、验证码助手、相机图片处理等源码

Android精选源码 android开发过程经常要用的工具类源码(http://www.apkbus.com/thread-599826-1-1.html) Android类似QQ空间个人主页下拉头部放大的布局效果(http://www.apkbus.com/thread-5...

逆鳞龙 ⋅ 05/29 ⋅ 0

Android 动画:这是一份详细 & 清晰的 动画学习指南

前言 动画的使用 是 开发中常用的知识 可是动画的种类繁多、使用复杂,每当需要 采用自定义动画 实现 复杂的动画效果时,很多开发者就显得束手无策 本文将献上一份动画的全面介绍攻略,包括动...

Carson_Ho ⋅ 05/03 ⋅ 0

腾讯X5WebView集成2018-05-15

工作中经常偶尔会用到H5网页来加载页面,使用原生的Android的WebView可以加载,但是当网页内容比较多的时候,需要等待很久才能加载完,加载完后用户才能看到网页中的内容,这样用户需要等很久...

林灬 ⋅ 05/15 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

浅谈springboot Web模式下的线程安全问题

我们在@RestController下,一般都是@AutoWired一些Service,由于这些Service都是单例,所以并不存在线程安全问题。 由于Controller本身是单例模式 (非线程安全的), 这意味着每个request过来,...

算法之名 ⋅ 今天 ⋅ 0

知乎Java数据结构

作者:匿名用户 链接:https://www.zhihu.com/question/35947829/answer/66113038 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 感觉知乎上嘲讽题主简...

颖伙虫 ⋅ 今天 ⋅ 0

Confluence 6 恢复一个站点有关使用站点导出为备份的说明

推荐使用生产备份策略。我们推荐你针对你的生产环境中使用的 Confluence 参考 Production Backup Strategy 页面中的内容进行备份和恢复(这个需要你备份你的数据库和 home 目录)。XML 导出备...

honeymose ⋅ 今天 ⋅ 0

JavaScript零基础入门——(九)JavaScript的函数

JavaScript零基础入门——(九)JavaScript的函数 欢迎回到我们的JavaScript零基础入门,上一节课我们了解了有关JS中数组的相关知识点,不知道大家有没有自己去敲一敲,消化一下?这一节课,...

JandenMa ⋅ 今天 ⋅ 0

火狐浏览器各版本下载及插件httprequest

各版本下载地址:http://ftp.mozilla.org/pub/mozilla.org//firefox/releases/ httprequest插件截至57版本可用

xiaoge2016 ⋅ 今天 ⋅ 0

Docker系列教程28-实战:使用Docker Compose运行ELK

原文:http://www.itmuch.com/docker/28-docker-compose-in-action-elk/,转载请说明出处。 ElasticSearch【存储】 Logtash【日志聚合器】 Kibana【界面】 答案: version: '2'services: ...

周立_ITMuch ⋅ 今天 ⋅ 0

使用快嘉sdkg极速搭建接口模拟系统

在具体项目研发过程中,一旦前后端双方约定好接口,前端和app同事就会希望后台同事可以尽快提供可供对接的接口方便调试,而对后台同事来说定好接口还仅是个开始、设计流程,实现业务逻辑,编...

fastjrun ⋅ 今天 ⋅ 0

PXE/KickStart 无人值守安装

导言 作为中小公司的运维,经常会遇到一些机械式的重复工作,例如:有时公司同时上线几十甚至上百台服务器,而且需要我们在短时间内完成系统安装。 常规的办法有什么? 光盘安装系统 ===> 一...

kangvcar ⋅ 昨天 ⋅ 0

使用Puppeteer撸一个爬虫

Puppeteer是什么 puppeteer是谷歌chrome团队官方开发的一个无界面(Headless)chrome工具。Chrome Headless将成为web应用自动化测试的行业标杆。所以我们很有必要来了解一下它。所谓的无头浏...

小草先森 ⋅ 昨天 ⋅ 0

Java Done Right

* 表示难度较大或理论性较强。 ** 表示难度更大或理论性更强。 【Java语言本身】 基础语法,面向对象,顺序编程,并发编程,网络编程,泛型,注解,lambda(Java8),module(Java9),var(...

风华神使 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部