文档章节

SSE指令集系列之一

abcijkxyz
 abcijkxyz
发布于 2016/11/22 16:46
字数 678
阅读 28
收藏 0

SSE有8个128位独立寄存器(XMM1~XMM7),指令描述约定:
     MM指64位MMX寄存器
     XMM指128XMM寄存器

     m32 指32位内存变量
     m128指128位内存变量

 

1. 数据传送指令

    movaps XMM,XMM/m128 movaps XMM/m128,XMM

     把源存储器内容值送入目的寄存器,当有m128时, 内存地址必须是16字节对齐的

     movups XMM,XMM/m128  movaps XMM/m128,XMM

    与 movaps 执行的结果相同,但内存地址可以不是16字节对齐的,速度没有 movaps 的快!

 

  movlps XMM, m64

  把源存储器64位内容送入目的寄存器低64位,高64位不变,内存地址不必16字节对齐.

  movhps XMM, m64

  把源存储器64位内容送入目的寄存器高64位,低64位不变,内存地址不必16字节对齐.

  movhlps XMM,XMM

  把源寄存器高64位送入目的寄存器低64位,高64位不变.

  movlhps XMM,XMM

  把源寄存器低64位送入目的寄存器高64位,低64位不变.  

  movss    XMM, XMM/m32

      把源寄存器低32位送入目的寄存器低32位,如果源为32为内存变量,则目的寄存器其它位清零,否则保持不变.  

 

2. 单精度浮点算数运算指令

          SSE 的点算数运算指令,大致上可以分成兩种:packed 和 scalar。Packed 指令是一次对 XMM 寄存器中的四个浮点数均进行相同的运算,而 scalar 则只对 XMM寄存器中的最低  32位浮点数进行运算,高96位保持不变,如下图:

                                                    

                  addps XMM,XMM/m128

                    addss XMM,XMM/m32

                  subps XMM,XMM/m128

                  subss XMM,XMM/m32

                  mulps XMM,XMM/m128

                  mulss XMM,XMM/m32

                  divps XMM,XMM/m128

                  divss XMM,XMM/m32

                  maxps XMM,XMM/m128

                  maxss XMM,XMM/m32

                    minps XMM,XMM/m128

                  minss XMM,XMM/m32

                  rcpps XMM,XMM/m128

                  rcpss XMM,XMM/m32

                  rsqrtps XMM,XMM/m128

                  rsqrtss XMM,XMM/m32

 

       要点: 以PS后缀结尾的指令,如果源操作数为存储器,要求内存地址必须是16字节对齐的。而以SS后缀结尾的指令,没有这个限制。

 

 3. 位运算指令

   andps XMM,XMM/m128

  源存储器128个二进制位'与'目的寄存器128个二进制位,结果送入目的寄存器,内存变量地址必须16字节对齐.

  orps XMM,XMM/m128
  源存储器128个二进制位'或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量地址必须16字节对齐.

  xorps XMM,XMM/m128
  源存储器128个二进制位'异或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量地址必须16字节对齐

 

 

 

 

本文转载自:http://www.cnblogs.com/celerychen/archive/2013/03/27/2984085.html

共有 人打赏支持
上一篇: 图像放大算法
abcijkxyz
粉丝 63
博文 6196
码字总数 1876
作品 0
深圳
项目经理
私信 提问
Intel 45nm制程处理器上的SSE4指令集简介

Intel 45nm制程处理器上的SSE4指令集简介 Intel的SSE(Streaming SIMD Extensions, 流式单指令多数据扩展)技术有效增强了CPU的向量运算能力。支持该指令集的处理器有8个128位xmm寄存器,每一...

日久不生情
2017/11/07
0
0
Flat Assembler

Flat Assembler 是一个快速高效的80x86的汇编工具,支持DOS、Windows、Linux操作系统,支持包括 8086-80486/Pentium instructions with MMX, SSE, SSE2, SSE3, and 3DNow! extensions and x......

匿名
2008/11/16
2.8K
0
/proc/cpuinfo文件分析(查看CPU信息)

  在Linux系统中,提供了proc文件系统显示系统的软硬件信息。如果想了解系统中CPU的提供商和相关配置信息,则可以通过/proc/cpuinfo文件得到。本文章针对该文件进行简单的总结。   基于不...

zhiqiangw
2016/11/18
33
0
Intel Software Development Emulator

Intel Software Development Emulator 是一款模拟Intel未来扩展指令集功能的仿真器。仿真器是基于Pin动态二进制仪器系统(和XED)。 它可以模拟在SSE4, AES,PCLMULQDQ中新的指令集功能和RTM...

叶秀兰
2013/12/08
209
0
如何选择纠删码编码引擎 | 纠删码技术详解(上)

作者介绍: 徐祥曦,七牛云工程师,独立开发了多套高性能纠删码/再生码编码引擎。 柳青,华中科技大学博士,研究方向为基于纠删码的分布式存储系统。 前言: 随着数据的存储呈现出集中化(以...

七仙女很忙
2017/04/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

C#默认OrderBy()函数的排序问题

昨天在客户现场遇到一个很奇葩的问题,猜下下面代码的排序输出是什么: static void Main(){ List<string> strs = new List<string>(){"11", "12", "1:"}; foreach(string str i......

Airship
26分钟前
2
0
Vue调试神器Vue.js devtools

前言: Vue.js devtools是一个高效的vue项目可视化检查工具,其主要功能就是可以快速查看页面结构、组件中的data变量、computed计算属性、props父组件传过来的值等等 Chrome上的使用方法: 科学...

JamesView
32分钟前
14
0
最全面的IGMP协议总结!

IGMP互联网组管理协议是TCP/IP 协议族中负责IP组播成员管理的协议,用来在IP主机和与其直接相邻的组播路由器之间建立、维护组播组成员关系。 一、IGMP 简介 IGMP(Internet Group Management...

linuxprobe16
36分钟前
1
0
node-sass 安装失败的各种坑

开始的时候引入别人的一个项目 npm install npm run dev 启动项目 报错 > sell@1.0.0 dev E:\web_hwf\Vue\02app > node build/dev-server.js Listening at http://localhost:8888 webpack: w......

黑魔法
37分钟前
1
0
Qemu中PCI设备透传(PCI-Assign)源码分析

在网上看到很多人说Qemu的PCI-Assign透传不支持IOMMU,而VFIO透传却可以(还被当做一种优势进行推荐)。而VFIO跟SRIOV并非有必然联系,那就是说VFIO和PCI-Assign进本都是靠软件实现的了?既然...

LastRitter
39分钟前
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部