SIMD性能优化

news/2023/5/28 8:31:31

文章目录

    • 前言
      • MMX
      • SSE
      • AVX
    • 使用
      • 内置函数使用
        • SSE/AVX命名规则
        • SSE/AVX操作类别
        • 实战
    • 汇编使用
      • 优化前代码详解
      • 优化后代码详解
    • 引用文章

编码性能优化大法
算法优化
硬件加速
多线程并行
算法自适应升降级
冗余计算去除
箅法裁剪
以空间换时间
CPU加速
GPU加速
帧内多线程
帧间多线程
CPU大小核绑定
SIMD加速
cache miss优化
编译优化
GPU shader
GPU memory zero-copy

前言

SIMD(Single Instruction Multiple Data)是CPU硬件层面支持的用于对数据进行并行操作。

原理:采用一个控制器来控制多个处理器,同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作从而实现空间上的并行性的技术

它的指令集存在如下:

  • X86下的实现为MMXSSEAVX指令集

  • ARM下的实现为NEON指令集

MMX

1996年Intel推出了X86的MMX(MultiMedia eXtension)指令集

  • MMX定义了8个64位寄存器(MM0-MM7),以及相应的操作指令
  • 可用于以“压缩”格式保存64位整数或多个较小整数,并没有浮点数的支持!

注意:上面说的是x86的指令扩展,可以看到有点类似于64兼容32操作系统架构"rdi->edi"。

2003年才以 x86-64 和 64 位 PowerPC 处理器架构的形式引入到(在此之前是 32 位)个人计算机领域的主流。

SSE

1999年推出了全面覆盖MMX的SSE(Streaming SIMD Extensions)流式SIMD扩展指令集

  • 添加了8个新的128位寄存器(XMM0-XMM7)
  • 开始支持单个寄存器存储4个32单精度浮点数

X86-64架构世界的到来:

  • 在原来的基础上添加了8个寄存器(XMM8至XMM15)
  • 支持单个寄存器存储2个64双精度浮点数

AVX

2011年推出了延伸SSE的AVX(Advanced Vector Extensions)高级向量扩展指令集

  • 引入了16个256位寄存器(YMM0-YMM15)
  • AVX的256位寄存器和SSE的128位寄存器存在着相互重叠的关系(XMM寄存器为YMM寄存器的低位)

最好不要混用AVX与SSE指令集,否在会导致transition penalty(过渡处罚)

目前Apple OS X 10.6.8、Linux 2.6.30、Windows 7,可见现在AVX指令集是一个主流指令集

总结:

SIMD指令集
MMX
SSE
AVX
8个64位寄存器(MM0-MM7)
8个新的128位寄存器(XMM0-XMM7)
添加了8个寄存器(XMM8至XMM15)
16个256位寄存器(YMM0-YMM15)

使用

实现SIMD的方法如下:

  1. 使用Intel开发的跨平台函数库(Intel IPP库)
  2. 借助于Auto-vectorization(自动矢量化),即借助编译器将标量操作转化为矢量操作
  3. 使用编译器指示符,如Cilk里的#pragma simd和OpenMP里的#pragma omp simd
  4. 使用内置函数,高级语言中类似调用普通函数一样使用simd,函数的具体实现定义在编译器中
  5. 使用汇编直接操作SIMD指令和寄存器,高级语言中嵌入汇编代码,极致的性能优化

FFmpeg对simd的使用就是“内置函数”形式
如:4.2.2中 的libavutil/x86/intmath.h:#include<immintrin.h>

4.2.2中没找到向量寄存器的使用

内置函数使用

SSE/AVX指令主要定义于以下一些头文件中:

  • <xmmintrin.h> : SSE, 支持同时对4个32位单精度浮点数的操作。
  • <emmintrin.h> : SSE 2, 支持同时对2个64位双精度浮点数的操作。
  • <pmmintrin.h> : SSE 3, 支持对SIMD寄存器的水平操作(horizontal operation),如hadd, hsub等…。
  • <tmmintrin.h> : SSSE 3, 增加了额外的instructions。
  • <smmintrin.h> : SSE 4.1, 支持点乘以及更多的整形操作。
  • <nmmintrin.h> : SSE 4.2, 增加了额外的instructions。
  • <immintrin.h> : AVX, 支持同时操作8个单精度浮点数或4个双精度浮点数。

每一个头文件都包含了之前的所有头文件,所以引用immintrin.h即可使用SSE、AVX的内在函数

SSE/AVX命名规则

数据类型通常以_mxxx(T)的方式进行命名

xxx代表数据的位数:

  • SSE提供的__m128为128位
  • AVX提供的__m256为256位

T为类型:

  • 若为单精度浮点型则省略
  • 若为整形则为i,如__m128i
  • 若为双精度浮点型则为d,如__m256d。

操作浮点数的内置函数命名方式为_mm(xxx)_name_PT

name为函数执行的操作的名字:

  • _mm_add_ps ,加法
  • _mm_sub_ps ,减法

P代表的是对矢量或者标量进行操作:

  • _mm_add_ss ,只对最低位的32位浮点数执行加法
  • _mm_add_ps ,对4个32位浮点数执行加法操作

T代表浮点数的类型:

  • _mm_add_pd, d则为双精度浮点
  • _mm_add_ps, s则为单精度浮点型

操作整形的内置函数命名方式为:_mm(xxx)_name_epUY

U为整数的类型:

  • _mm_adds_epu16 , u为无符号类型
  • _mm_adds_epi16 , i为有符号类型

Y为操作的数据类型的位数:

  • _mm_cvtpd_pi32

SSE/AVX操作类别

存取操作(load/store/set)

  • load系列可以用来从内存中载入数据到SSE/AVX提供的类型中
  • store系列可以将SSE/AVX提供的类型中的数据存储到内存中
  • set系列可以直接设置SSE/AVX提供的类型中的数据

算术运算(常用部分)

  • _mm_add_ps,_mm_add_ss等加法系列
  • _mm_sub_ps,_mm_sub_pd等减法系列
  • _mm_mul_ps,_mm_mul_epi32等乘法系列
  • _mm_div_ps,_mm_div_ss等除法系列
  • _mm_sqrt_pd,_mm_rsqrt_ps等开平方系列
  • _mm_rcp_ps,_mm_rcp_ss等求倒数系列
  • _mm_dp_pd,_mm_dp_ps计算点乘

比较运算(常用部分)

  • _mm_max_ps逐分量对比两个数据,并将较大的分量存储到返回类型的对应位置中。
  • _mm_min_ps逐分量对比两个数据,并将较小的分量存储到返回类型的对应位置中。
  • _mm_cmpeq_ps逐分量对比两个数据是否相等。
  • _mm_cmpge_ps逐分量对比一个数据是否大于等于另一个是否相等。
  • _mm_cmpgt_ps逐分量对比一个数据是否大于另一个是否相等。
  • _mm_cmple_ps逐分量对比一个数据是否小于等于另一个是否相等。
  • _mm_cmplt_ps逐分量对比一个数据是否小于另一个是否相等。
  • _mm_cmpneq_ps逐分量对比一个数据是否不等于另一个是否相等。
  • _mm_cmpnge_ps逐分量对比一个数据是否不大于等于另一个是否相等。
  • _mm_cmpngt_ps逐分量对比一个数据是否不大于另一个是否相等。
  • _mm_cmpnle_ps逐分量对比一个数据是否不小于等于另一个是否相等。
  • _mm_cmpnlt_ps逐分量对比一个数据是否不小于另一个是否相等。

逻辑运算(常用部分)

  • _mm_and_pd对两个数据逐分量and
  • _mm_andnot_ps先对第一个数进行not,然后再对两个数据进行逐分量and
  • _mm_or_pd对两个数据逐分量or
  • _mm_xor_ps对两个数据逐分量xor

实战

以下使用宏定义方式分别运行AVX、SSE指令集:

//Building :
//- AVX Pattern "clang demo.c -D AVX -mavx && ./a.out"
//- SSE Pattern "clang demo.c && ./a.out"
#include <stdio.h>
#include <immintrin.h>
#include <sys/time.h>#define N 170 * 1024 * 1024
#define SEED 0x100int main(){
#if defined(AVX)//AVXfloat* a = (float*) _mm_malloc(N * sizeof(float), 32);float* b = (float*) _mm_malloc(N * sizeof(float), 32);float* c = (float*) _mm_malloc(N * sizeof(float), 32);
#else//SSEfloat* a = (float*) _mm_malloc(N * sizeof(float), 16);float* b = (float*) _mm_malloc(N * sizeof(float), 16);float* c = (float*) _mm_malloc(N * sizeof(float), 16);
#endifsrand(SEED);for (int i = 0; i < N; i++) {a[i] = b[i] = (float)(rand() % N);}struct timeval before, after;gettimeofday(&before, NULL);//====================begin times====================int i = 0;
#if defined(AVX)//AVX__m256 A,B,C; // 向量类型 __m256 = 8xfloatfor (; i < (N & (~(unsigned)7)); i+=8) {A = _mm256_load_ps(&a[i]);  //256bit = 32byte 表示并行操作32byte数据B = _mm256_load_ps(&b[i]);//将压缩的单精度浮点值从对齐的内存位置移动到目标向量。对应的英特尔®avx指令为 VMOVAPSC = _mm256_mul_ps(A,B);//将浮点数与32个向量相乘。对应的英特尔®avx指令为 VMULPS_mm256_store_ps(&c[i],C);//将打包的单精度浮点值从float32向量移动到对齐的内存位置。相应的英特尔®AVX指令是VMOVAPS。  即__m256 C 移动到 c指针的位置}
#else//SSE__m128 A,B,C; // 向量类型 __m128 = 4xfloatfor (; i < (N & (~(unsigned)3)); i+=4) {A = _mm_load_ps(&a[i]);B = _mm_load_ps(&b[i]);C = _mm_mul_ps(A,B);_mm_store_ps(&c[i],C);}
#endif//====================end times====================gettimeofday(&after, NULL);printf("%f, %f, %f, %f\n", c[0], c[1], c[N-2], c[N-1]);double msecs = 0.0;msecs = (after.tv_sec - before.tv_sec)*1000.0 + (after.tv_usec - before.tv_usec)/1000.0;
#if defined(AVX)printf("AVX pattern execution time = %2.3lf ms\n", msecs);
#elseprintf("SSE pattern execution time = %2.3lf ms\n", msecs);
#endif_mm_free(c);_mm_free(b);_mm_free(a);return 0;
}

运行结果:

$ clang demo.c && ./a.out                                    
SSE pattern execution time = 512.333 ms$ clang demo.c -D AVX -mavx && ./a.out                       
AVX pattern execution time = 417.597 ms

汇编使用

go的数据操作模块

var a []byte
var b []byte
for i,_ := range a{if a[i] != b[i]return false;
}

下图是使用 SIMD 技术优化汇编代码前后的对比图:

优化前代码详解

//func Equal(a, b []byte) bool
TEXT bytes·Equal(SB),NOSPLIT,$0-49
//---------数据加载------------// 将栈上数据取到寄存器中// 对数组长度进行比较,如果不相等直接返回0MOVD a_len+8(FP), R1        // 取数组a的长度MOVD b_len+32(FP), R3      // 取数组b的长度CMP R1, R3                         // 数组长度比较BNE notequal                      // 数组长度不同,跳到notequalMOVD a+0(FP), R0              // 将数组a的地址加载到通用寄存器R0中MOVD b+24(FP), R2            // 将数组b的地址加载到通用寄存器R2中ADD R0, R1                         // R1保存数组a末尾的地址
//-----------------------------
//--------数组循环比较操作-------
loop:CMP R0, R1                         // 判断是否到了数组a末尾BEQ equal                           // 如果已经到了末尾,说明之前都是相等的,跳转到标签equalMOVBU.P 1(R0), R4             // 从数组a中取一个byte加载到通用寄存器R4中MOVBU.P 1(R2), R5             // 从数组b中取一个byte加载到通用寄存器R5中CMP R4, R5                         // 比较寄存器R4、R5中的值BEQ loop                             // 相等则继续下一轮循环操作
//-----------------------------
//-------------不相等-----------
notequal:MOVB ZR, ret+48(FP)          // 数组不相等,返回0RET
//-----------------------------
//-------------相等-------------
equal:MOVD $1, R0                       // 数组相等,返回1MOVB R0, ret+48(FP)RET
//-----------------------------

优化后代码详解

// 函数的参数,此处是通过寄存器传递参数的
// 调用memeqbody的父函数已经将参数放入了如下寄存器中
// R0: 寄存器R0保存数组a的地址
// R1: 寄存器R1数组a的末尾地址
// R2: 寄存器R2保存数组b的地址
// R8: 寄存器R8存放比较的结果
TEXT runtime·memeqbody<>(SB),NOSPLIT,$0
//---------------数组长度判断-----------------
// 根据数组长度判断按照何种分块开始处理CMP    $1, R1BEQ    oneCMP    $16, R1BLO    tailBIC    $0x3f, R1, R3CBZ    R3, chunk16ADD    R3, R0, R6//------------处理长度为64 bytes的块-----------
// 按64 bytes为块循环处理
chunk64_loop:
// 加载RO,R2指向的数据块到SIMD向量寄存器中,并将RO,R2指针偏移64位VLD1.P (R0), [V0.D2, V1.D2, V2.D2, V3.D2]VLD1.P (R2), [V4.D2, V5.D2, V6.D2, V7.D2]
// 使用SIMD比较指令,一条指令比较128位,即16个bytes,结果存入V8-v11寄存器VCMEQ  V0.D2, V4.D2, V8.D2VCMEQ  V1.D2, V5.D2, V9.D2VCMEQ  V2.D2, V6.D2, V10.D2VCMEQ  V3.D2, V7.D2, V11.D2
// 通过SIMD与运算指令,合并比较结果,最终保存在寄存器V8中VAND   V8.B16, V9.B16, V8.B16VAND   V8.B16, V10.B16, V8.B16VAND   V8.B16, V11.B16, V8.B16
// 下面指令判断是否末尾还有64bytes大小的块可继续64bytes的循环处理
// 判断是否相等,不相等则直接跳到not_equal返回CMP    R0, R6                             // 比较指令,比较RO和R6的值,修改寄存器标志位,对应下面的BNE指令VMOV   V8.D[0], R4VMOV   V8.D[1], R5                   // 转移V8寄存器保存的结果数据到R4,R5寄存器CBZ    R4, not_equalCBZ    R5, not_equal                   // 跳转指令,若R4,R5寄存器的bit位出现0,表示不相等,跳转not_equalBNE    chunk64_loop                  // 标志位不等于0,对应上面RO!=R6则跳转chunk64_loopAND    $0x3f, R1, R1                   // 仅保存R1末尾的后6位,这里保存的是末尾不足64bytes块的大小CBZ    R1, equal                         // R1为0,跳转equal,否则向下顺序执行...............................................
...............................................//-----------循环处理长度为16 bytes的块------------
chunk16_loop:VLD1.P (R0), [V0.D2]VLD1.P (R2), [V1.D2]VCMEQ    V0.D2, V1.D2, V2.D2CMP R0, R6VMOV V2.D[0], R4VMOV V2.D[1], R5CBZ R4, not_equalCBZ R5, not_equalBNE chunk16_loopAND $0xf, R1, R1CBZ R1, equal
//-----处理数组末尾长度小于16、8、4、2 bytes的块-----
tail:TBZ $3, R1, lt_8MOVD.P 8(R0), R4MOVD.P 8(R2), R5CMP R4, R5BNE not_equallt_8:TBZ $2, R1, lt_4MOVWU.P 4(R0), R4MOVWU.P 4(R2), R5CMP R4, R5BNE not_equallt_4:TBZ $1, R1, lt_2MOVHU.P 2(R0), R4MOVHU.P 2(R2), R5CMP R4, R5BNE not_equallt_2:TBZ     $0, R1, equalone:MOVBU (R0), R4MOVBU (R2), R5CMP R4, R5BNE not_equal
//-----------------判断相等返回1----------------
equal:MOVD $1, R0MOVB R0, (R8)RET
//----------------判断不相等返回0----------------
not_equal:MOVB ZR, (R8)RET

上述优化代码中:

  • 使用 VLD1(数据加载指令)一次加载 64bytes 数据到 SIMD 寄存器
  • 再使用 VCMEQ(相等比较指令)比较 SIMD 寄存器保存的数据内容得到结果

大于 16byte 小于 64byte 块数据,使用一个 SIMD 寄存器一次处理 16byte 块的数据

小于 16byte 数据块使用通用寄存器保存数据,一次比较 8\4\2\1byte 的数据块

引用文章

  • https://juejin.cn/post/7091571543239000078
  • https://xie.infoq.cn/article/9354c2496e3652fd6560aa074
  • https://zhuanlan.zhihu.com/p/55327037
  • https://www.eet-china.com/mp/a71752.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-4553866.html

如若内容造成侵权/违法违规/事实不符,请联系郑州代理记账网进行投诉反馈,一经查实,立即删除!

相关文章

如何判断是否是ssd硬盘?win10查看固态硬盘的方法

转自&#xff1a;http://www.w10zj.com/Win10xy/Win10yh_7732.html 如何判断是否是ssd硬盘&#xff1f;在win10操作系统中我们该如何查看当前主机中安装的是固态硬盘还是机械硬盘呢&#xff1f;除了开箱验机之外在本文中小编要教大家几个查看win10系统中是否是固态硬盘的方法。…

springBoot工程入门

文章目录基本知识快速搭建springBoot工程起步依赖原理分析spring-boot-starter-parentspring-boot-starter-web配置yaml数据格式读取配置profileprofile配置方式多profile文件方式yml多文档方式profile激活方式内部配置加载顺序外部配置加载顺序整合其他框架Junitredismybatiss…

指数平滑指标怎么看?

一、应用 指数平滑可继续拆分为一次平滑&#xff0c;二次平滑和三次平滑&#xff08;即Holt-Winters法&#xff09;&#xff0c;一次平滑法为历史数据的加权预测&#xff0c;二次平滑法适用于具有一定线性趋势的数据&#xff0c;三次平滑法在二次平滑法基础上再平滑一次&#…

【易语言组合框和列表框联动】

添加组合框和列表框联动 右击组合框选择设置项目 列表框添加组合框得选中项 列表框1.加入项目 (组合框1.内容, )列表框双击删除内容 列表框1.删除项目 (列表框1.现行选中项)组合框和组合框联动 没啥写的 就是if判断和组合框清空与加入项目的方法 组合框3.清空 () .判断开…

易语言读取计算机配置,易语言取所有配置节名和配置项名

本视频教程演示了取配置节名称、取配置项名称、取所有配置节和所有配置项名称&#xff0c;通过了精易模块和多种方法来实现。视频链接&#xff1a;511遇见易语言教程教程源码:.版本 2.支持库 spec.程序集 窗口程序集_启动窗口.子程序 _按钮1_被单击.局部变量 序号, 整数型.如果…

易语言mysql清空一个表_易语言遍历和删除sqlite数据库信息方法

易语言如何遍历和删除sqlite数据库信息呢1、打开易语言&#xff0c;我们新建一个“Windows”窗口程序&#xff0c;进入到窗口程序集中2、在新建的窗口中添加2个编辑框&#xff0c;1个按钮组件。并修改组件的属性。3、我们双击启动窗口&#xff0c;在__启动窗口_创建完毕程序中&…

易语言快照和截取屏幕区域

本课录制了两个和截图有关的易语言命令&#xff0c;快照和截取屏幕区域&#xff0c;并且分快照窗口快照&#xff0c;全屏快照&#xff0c;保存快照&#xff0c;已经截屏区域等等。 视频链接&#xff1a; 511遇见易语言教程一、快照&#xff08;&#xff09; 主要用于截图 1、…

数据结构 - 学习笔记 - 红黑树前传——234树

数据结构 - 学习笔记 - 红黑树前传——234树简介结点类型与红黑树对应关系插入逻辑插入步骤演示2结点插入3结点插入&#xff08;红黑树旋转&#xff09;共对应6种红黑树情形有4种情形需要再平衡4结点插入&#xff08;红黑树变色&#xff09;234树转红黑树触发分裂有4种情形需要…

求一元二次方程的根【C++】

哈哈哈这个就图一乐&#xff0c;各位看官要铭记&#xff0c;眼过千遍不如手过一遍 求一元二次方程axbxc0&#xff08;a≠0&#xff09;的根 求根公式哦一元二次方程的求根公式是什么&#xff1f;_百度知道 #include<iostream> #include<cmath> using namespace s…

c语言怎样调用求根函数,编写函数求一元二次方程的根,并在main主函数中调用该函数 用c++编写...

满意答案sIXzVDhc2014.01.10采纳率&#xff1a;58% 等级&#xff1a;12已帮助&#xff1a;7410人#include #include void b1 (){float l,s,k;int a,b,c,h;printf ("************这是求根方程****************\n");printf("\n");printf("输入a,b,c的…

Solidity 中的数学(第 1 部分:数字)

本文开启了一系列关于在 Solidity 中进行数学运算的文章。第一个要讨论的话题是&#xff1a;数字。 介绍 以太坊是一个可编程的区块链&#xff0c;其功能可以通过将称为智能合约的可执行代码片段发布到区块链本身来扩展。这将以太坊与第一代区块链区分开来&#xff0c;在第一代…

WC2023游记

今年&#xff0c;我势必打破铜牌魔咒 Day -?~? 虽然已年及高二&#xff0c;但WC的讲课还是没有听懂多少&#xff0c;这段时间&#xff0c;北师大还有一名E队来我校训练&#xff0c;我只能感慨&#xff1a;“如果一个选手比你强&#xff0c;还比你小&#xff0c;那你就再也打…

计算机中顺序结构,2.逻辑结构(一):顺序结构

今天我们开始学习计算机科学中的逻辑结构。逻辑结构有三种&#xff1a;顺序结构、循环结构、条件结构(分支结构)。顺序结构&#xff1a;计算机命令是有先后执行顺序的&#xff0c;执行完一条再执行下一条命令。这样才能保证计算机根据我们的命令一步步完成不同的、复杂的操作。…

C语言基础——执行顺序

一.语句 在C语言中&#xff0c;程序的执行顺序是由语句组成的。程序的功能也是由执行语句实现的&#xff0c;一个语句执行一个功能&#xff0c;语句可以分为表达式语句与空语句。 1.表达式语句 表达式语句由表达式与分号组成。表达式是表达式语句的内容&#xff0c;分号是表…

编程逻辑及思想

1、“!”,"not"(逻辑非)、“&&”,"and",(逻辑与)、“||”,"or"(逻辑或)是三种逻辑运算符。不同语言符号不同&#xff0c;但是逻辑一样。 2、顺序结构&#xff0c;分支结构&#xff0c;循环结构&#xff0c;是编程或算法的三种基本结构&a…

计算机逻辑算法,算法逻辑

算法可以理解为由基本运算及规定的运算顺序所构成的完整的解题步骤&#xff0c;或者看成按照要求设计好的有限的确切的计算序列&#xff0c;并且这样的步骤和序列可以解决一类问题。一般算法有顺序结构、选择结构、循环结构三种基本逻辑结构。中文名算法逻辑外文名Algorithm lo…

顺序表的原理

1、顺序表 1&#xff0c;顺序表特点 线性表的逻辑顺序与物理顺序一致&#xff0c;数据元素之间的关系是以元素在计算机内“物理位置相邻”来体现。对顺序表中的所有表项&#xff0c;即可以进行顺序的访问&#xff0c;也可以随机的访问&#xff0c;也就是说&#xff0c;    既…

问题:编译策略之代码逻辑顺序不正确(Optimization Level)

问题 曾经遇到过一个问题, 运行一段代码发现执行的逻辑顺序不正确, 而且在添加了其他语句后, 还会有不同的顺序, 但是都是不正确的. 如下: Debug 一下发现, 逻辑顺序为: 1> – 2> – 1> – 3>,而且在其中的添加 NSLog 后顺序还会发生变化 分析 在过程中 tes…

297. 二叉树的序列化与反序列化

297. 二叉树的序列化与反序列化 难度困难 序列化是将一个数据结构或者对象转换为连续的比特位的操作&#xff0c;进而可以将转换后的数据存储在一个文件或者内存中&#xff0c;同时也可以通过网络传输到另一个计算机环境&#xff0c;采取相反方式重构得到原数据。 请设计一个…