文档章节

用x64汇编语言编写384位无符号整数乘法(上)

safedead
 safedead
发布于 2015/02/06 15:55
字数 1257
阅读 73
收藏 0

一、用GCC生成汇编模板

1、编写C语言头文件mul384.h,内容就下面一行
uint64_t mul384(uint64_t c[12], uint64_t a[6], uint64_t b[6]);//c = a * b
2、编写相应C程序文件mul384.c,写个空函数就行了
#include <stdint.h>
#include "mul384.h"
uint64_t mul384(uint64_t c[12], uint64_t a[6], uint64_t b[6])
{
    return 0;
}
3、用GCC编译C程序文件生成汇编文件mul384.s,生成汇编模板文件
gcc -Wall -O2 mul384.c -S

这是mul384.s的全部内容

    .file    "mul384.c"
    .text
    .p2align 4,,15
.globl mul384
    .type    mul384, @function
mul384:
.LFB0:
    .cfi_startproc
    xorl    %eax, %eax
    ret
    .cfi_endproc
.LFE0:
    .size    mul384, .-mul384
    .ident    "GCC: (GNU) 4.4.7 20120313 (Red Hat 4.4.7-11)"
    .section    .note.GNU-stack,"",@progbits

这个mul384.s文件之所以被称为汇编模板,是因为后面编写的汇编代码需要填入下面两句之间

    .cfi_startproc
    .cfi_endproc

替换原先的这两条指令

    xorl    %eax, %eax
    ret

二、算法选择与汇编程序设计

1、C函数接口设计

在x64平台上,无符号整数位宽为64位,一个384位无符号整数需要6个64位无符号整数构成,两个384位无符号整数相乘,其结果需要不超过768位的存储空间,占用12个64位无符号整数空间,故此设计C函数声明为:

uint64_t mul384(uint64_t c[12], uint64_t a[6], uint64_t b[6]);//c = a * b

uint64_t的定义在头文件stdint.h中,因此应用中编译C程序时要包含此头文件。

2、汇编程序输入输出设计

为了提高代码性能,采用“一次输入,一次输出”的内存访问策略,除了最初的输入和最后的输出外,整个运算过程中不访问内存,过程数据全部缓存于SSE寄存器中,为此CPU必须支持SSE42指令集,本文代码只适用于用户态程序,不能用于内核态(不清楚内核态和用户态编程区别的读者请无视这句话)。另外就是调用者传给函数用于输入输出的数组指针a[]、b[]和c[]必须满足16字节对齐要求,否则必将触发CPU错误导致进程崩溃。

3、乘法算法选择

384位乘法在大数运算中属于短位长运算,FFT乘法神马的就别想了,还不够折腾的,Karatsuba算法也不用考虑,对于常用x64处理器来讲,若将基本64位加法指令 addq 耗时设定为1单位,那么带进位64位加法指令 adcq 耗时为2单位,64位无符号乘法指令 mulq 耗时为4单位,综合考虑得失后,采用最基本的分治乘法算法作为本文使用的算法,详细如下:

|====|====|====|====|====|====|====|====|====|====|=====|=====|
|c[0]|c[1]|c[2]|c[3]|c[4]|c[5]|c[6]|c[7]|c[8]|c[9]|c[10]|c[11]|
|====|====|====|====|====|====|====|====|====|====|=====|=====|
|a[0]*b[0]|    |    |    |    |    |    |    |    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |a[0]*b[1]|    |    |    |    |    |    |    |     |     |
|    |a[1]*b[0]|    |    |    |    |    |    |    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |a[0]*b[2]|    |    |    |    |    |    |     |     |
|    |    |a[1]*b[1]|    |    |    |    |    |    |     |     |
|    |    |a[2]*b[0]|    |    |    |    |    |    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |a[0]*b[3]|    |    |    |    |    |     |     |
|    |    |    |a[1]*b[2]|    |    |    |    |    |     |     |
|    |    |    |a[2]*b[1]|    |    |    |    |    |     |     |
|    |    |    |a[3]*b[0]|    |    |    |    |    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |    |a[0]*b[4]|    |    |    |    |     |     |
|    |    |    |    |a[1]*b[3]|    |    |    |    |     |     |
|    |    |    |    |a[2]*b[2]|    |    |    |    |     |     |
|    |    |    |    |a[3]*b[1]|    |    |    |    |     |     |
|    |    |    |    |a[4]*b[0]|    |    |    |    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |    |    |a[0]*b[5]|    |    |    |     |     |
|    |    |    |    |    |a[1]*b[4]|    |    |    |     |     |
|    |    |    |    |    |a[2]*b[3]|    |    |    |     |     |
|    |    |    |    |    |a[3]*b[2]|    |    |    |     |     |
|    |    |    |    |    |a[4]*b[1]|    |    |    |     |     |
|    |    |    |    |    |a[5]*b[0]|    |    |    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |    |    |    |a[1]*b[5]|    |    |     |     |
|    |    |    |    |    |    |a[2]*b[4]|    |    |     |     |
|    |    |    |    |    |    |a[3]*b[3]|    |    |     |     |
|    |    |    |    |    |    |a[4]*b[2]|    |    |     |     |
|    |    |    |    |    |    |a[5]*b[1]|    |    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |    |    |    |    |a[2]*b[5]|    |     |     |
|    |    |    |    |    |    |    |a[3]*b[4]|    |     |     |
|    |    |    |    |    |    |    |a[4]*b[3]|    |     |     |
|    |    |    |    |    |    |    |a[5]*b[2]|    |     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |    |    |    |    |    |a[3]*b[5]|     |     |
|    |    |    |    |    |    |    |    |a[4]*b[4]|     |     |
|    |    |    |    |    |    |    |    |a[5]*b[3]|     |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |    |    |    |    |    |    |a[4]*b[5] |     |
|    |    |    |    |    |    |    |    |    |a[5]*b[4] |     |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |    |    |    |    |    |    |    |    |    | a[5]*b[5] |
|====|====|====|====|====|====|====|====|====|====|=====|=====|
4、寄存器规划

以高性能运算为目的的汇编语言编程设计中,寄存器规划是重中之重,还好384位乘法对x64处理器来讲只是入门级小菜,所以我用了两周时间完成了寄存器规划,详细使用规划如下:

(1).rdi是输出数据c[]的首地址,rsi是输入数据a[]的首地址,rdx是输入数据b[]的首地址

(2).xmm0 ~ xmm5这个6个SSE寄存器用于缓存运算过程与结果数据
|---------|---------|---------|---------|---------|-----------|
|  %xmm0  |  %xmm1  |  %xmm2  |  %xmm3  |  %xmm4  |  %xmm5    |
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|c[0]|c[1]|c[2]|c[3]|c[4]|c[5]|c[6]|c[7]|c[8]|c[9]|c[10]|c[11]|
|----|----|----|----|----|----|----|----|----|----|-----|-----|

(3).xmm6 ~ xmm8这个6个SSE寄存器用于输入数据a和b
|---------|---------|---------|---------|---------|---------|
|  %xmm6  |  %xmm7  |  %xmm8  |  %xmm6  |  %xmm7  |  %xmm8  |
|----|----|----|----|----|----|----|----|----|----|----|----|
|a[0]|a[1]|a[2]|a[3]|a[4]|a[5]|b[0]|b[1]|b[2]|b[3]|b[4]|b[5]|
|----|----|----|----|----|----|----|----|----|----|----|----|

(4).xmm14和xmm15用于r12 ~ r15的备份与恢复
|---------|---------|
| %xmm14  | %xmm15  |
|----|----|----|----|
|%r12|%r13|%r14|%r15|
|----|----|----|----|

(5).r10 ~ r15用于乘法指令mulq的操作数,其数值固定
|----|----|----|----|----|----|
|%r10|%r11|%r12|%r13|%r14|%r15|
|----|----|----|----|----|----|
|a[1]|a[3]|a[5]|b[1]|b[3]|b[5]|
|----|----|----|----|----|----|

(6).r8, r9, rsi三个通用寄存器用于累加过程,循环使用
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|c[0]|c[1]|c[2]|c[3]|c[4]|c[5]|c[6]|c[7]|c[8]|c[9]|c[10]|c[11]|
|----|----|----|----|----|----|----|----|----|----|-----|-----|
|    |%r8 |%r9 |%rsi|%r8 |%r9 |%rsi|%r8 |%r9 |%rsi|%r8  |%r9  |
|----|----|----|----|----|----|----|----|----|----|-----|-----|


© 著作权归作者所有

共有 人打赏支持
safedead
粉丝 2
博文 19
码字总数 16374
作品 0
海淀
高精度乘法程序设计汇编语言版-课程设计

一段尘封已久的代码,当年的课程设计!高精度乘法程序设计汇编语言版 1.1 课程设计题目 高精度乘法程序设计 1.2 课程设计目的 1. 巩固和加深课堂所学知识 2. 将课本上的理论知识和实际应用有...

城邑耕夫
2012/04/14
0
0
汇编总结:无符号除法,有符号除法,取余,无符号乘法,有符号乘法指令

本文分为3个模块。 示例---该指令的示例 解释---为指令不好理解的地方 练习---为了更熟悉该指令 1.1 有符号除法指令及取余example: 在c语言里要完成 8 / 2的汇编指令如下: 在c语言里要完成 ...

guonaihong
2015/10/07
988
0
php 位移运算符(>右移)

位移运算符 << 位左移 左移运算的实质是将对应的数据的二进制值逐位左移若干位,并在空出的位置上填0,最高位溢出并舍弃。例 如 $a=10; $b=$a<<2; 则$b=40,根据手册描述可以看出位运算可以看...

happy_limit
2013/05/31
0
1
汇编语言指令英文全称

1.通用数据传送指令 MOV----> move MOV dest,src;dest←src MOV指令把一个字节或字的操作数从源地址src传送至目的地址dest。 MOVSX---->extended move with sign data MOVZX---->extended mo......

伽罗kapple
2015/10/24
155
0
从奔腾I的VCD播放到AI区块链播放器——程序优化的魔法

从上个世纪本腾I电脑播放VCD,通过巧妙的算法优化,可以在损失部分效果的情况下在低性能的电脑上播放VCD。时至今日,硬件性能大幅飙升,许多算法近乎“失传”了。但对于充满好奇心的程序员,...

LiveVideoStack
04/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如何通过 J2Cache 实现分布式 session 存储

做 Java Web 开发的人多数都会需要使用到 session (会话),我们使用 session 来保存一些需要在两个不同的请求之间共享数据。一般 Java 的 Web 容器像 Tomcat、Resin、Jetty 等等,它们会在...

红薯
今天
1
0
C++ std::thread

C++11提供了std::thread类来表示一个多线程对象。 1,首先介绍一下std::this_thread命名空间: (1)std::this_thread::get_id():返回当前线程id (2)std::this_thread::yield():用户接口...

yepanl
今天
2
0
Nignx缓存文件与动态文件自动均衡的配置

下面这段nginx的配置脚本的作用是,自动判断是否存在缓存文件,如果有优先输出缓存文件,不经过php,如果没有,则回到php去处理,同时生成缓存文件。 PHP框架是ThinkPHP,最后一个rewrite有关...

swingcoder
今天
1
0
20180920 usermod命令与用户密码管理

命令 usermod usermod 命令的选项和 useradd 差不多。 一个用户可以属于多个组,但是gid只有一个;除了gid,其他的组(groups)叫做扩展组。 usermod -u 1010 username # 更改用户idusermod ...

野雪球
今天
1
0
Java网络编程基础

1. 简单了解网络通信协议TCP/IP网络模型相关名词 应用层(HTTP,FTP,DNS等) 传输层(TCP,UDP) 网络层(IP,ICMP等) 链路层(驱动程序,接口等) 链路层:用于定义物理传输通道,通常是对...

江左煤郎
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部