SSE特殊指令集系列之二
SSE特殊指令集系列之二
abcijkxyz 发表于2年前
SSE特殊指令集系列之二
  • 发表于 2年前
  • 阅读 5
  • 收藏 0
  • 点赞 0
  • 评论 0

移动开发云端新模式探索实践 >>>   

本文要谈的是这样一条指令:

PSADBW

这条指令是SSE1引入的用于视频编码绝对差值求和的指令。

在视频编码中的运动估计模块,一种常见的SAD代码如下:

1 // Get the SAD 16x16 macro block with full pixel
2  for (y = 0; y < 16; y++) 3    for(x = 0; x < 16; x++) 4     sad += abs(current[y][x] - reference[y][x])

对于这段代码,我们首先来用MMX指令做优化。

1. SAD的MMX优化

我们使用带饱和运算的PSUBUSB指令来实现求ABS (B - A)的功能。具体原理描述如下:

 

计算完ABS之后还需要把字节型数据扩展为字型数据,这样,以方便累加不会溢出。较为完整的代码如下:

 

2. SAD的SSE优化

    直接使用PSADBW指令,非常简洁。

   2.1 SSE optmization version 1

       

 2.2 SSE optmization version 2

    

2.3  2.1 SSE optmization version 3

     

 

 

     注意:SSE第一个版本使用的是MMX寄存器,而第二个版本和第三版本使用的是128位的XMM寄存器。

     而SSE的第三个版本使用的非对齐的数据加载指令 MOVDQU指令。

 

 

 

 

 

 

 

  • 打赏
  • 点赞
  • 收藏
  • 分享
共有 人打赏支持
粉丝 60
博文 6195
码字总数 1876
×
abcijkxyz
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: