AVX application for Linux | Linux中使用AVX指令集编程踩坑

news/2025/1/23 2:34:40/

背景:学习使用SIMD AVX指令集,已经完成了一份代码,在Windows中能正常运行,想迁移到Linux中,结果却出现两个问题,最终逐渐排坑至可以正常运行。

环境:windows 10, ubuntu 20.04

目录

    • 一、Windows下正常运行代码
    • 二、Ubuntu中运行问题一:编译错误
    • 三、Ubuntu运行问题二:Segmentation fault (core dumped)
    • 四、成功运行结果
    • 参考资料

一、Windows下正常运行代码

#include<immintrin.h>
#include<iostream>
#include<cmath>using namespace std;void sinx(int, int, float*, float*);
void print_MM(__m256);int main()
{int N = 8, terms = 3;float x[8] = { 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 }, result[8];sinx(N, terms, x, result);for (int i = 0; i < N; ++i){printf("sin(%.3f) = %.10f;%.10f\n", x[i], result[i], sin(x[i]));}return 0;
}void sinx(int N, int terms, float* x, float* result)
{float three_fact = 6;for (int i = 0; i < N; i += 8){__m256 origx = _mm256_load_ps(&x[i]);print_MM(origx);__m256 value = origx;__m256 numer = _mm256_mul_ps(origx, _mm256_mul_ps(origx, origx));__m256 denom = _mm256_broadcast_ss(&three_fact);int sign = -1;for (int j = 1; j <= terms; j++){//value += sign * numer / denom__m256 tmp1 = _mm256_div_ps(_mm256_mul_ps(_mm256_set1_ps(sign), numer), denom);value = _mm256_add_ps(value, tmp1);numer = _mm256_mul_ps(numer, _mm256_mul_ps(origx, origx));float tmp2 = (float)((2 * j + 2) * (2 * j + 3));denom = _mm256_mul_ps(denom, _mm256_broadcast_ss(&tmp2));sign *= -1;}_mm256_store_ps(&result[i], value);}// Scalar program/*for (int i = 0; i < N; ++i){float value = x[i];float numer = x[i] * x[i] * x[i];int denom = 6;int sign = -1;for (int j = 1; j <= terms; ++j){value += sign * numer / denom;numer *= x[i] * x[i];denom *= (2 * j + 2) * (2 * j + 3);sign *= -1;}result[i] = value;}*/
}void print_MM(__m256 test)
{float out[8];_mm256_store_ps(&out[0], test);for (int i = 0; i < 8; ++i){cout << out[i] << "  ";}cout << endl;
}

在VS中创建CPP项目运行即可,其功能为利用泰勒展开近似计算sin(x)值,运行结果如下
Windows运行结果

二、Ubuntu中运行问题一:编译错误

将这份代码复制到Linux系统利用如下命令编译,出现错误

g++ filename.cpp -o filename

编译错误
/usr/lib/gcc/x86_64-linux-gnu/9/include/avxintrin.h:878:1: error: inlining failed in call to always_inline ‘void _mm256_store_ps(float*, __m256)’: target specific option mismatch
878 | _mm256_store_ps (float *__P, __m256 __A)
vector_program.cpp:75:17: note: called from here
75 | _mm256_store_ps(out, test);

查阅多方资料/文档/博客,最终找到两个解决方法
方法一:使用编译命令

g++ filename.cpp -march=native -o filename

方法二:使用编译命令

g++ -mavx filename.cpp -o filename

三、Ubuntu运行问题二:Segmentation fault (core dumped)

使用上述编译命令正确编译后,运行无结果
运行出错
再查阅多方资料/文档/博客,终于发现原因是因为内存不对齐,所使用的_mm256_load_ps()和_mm256_store_ps()等操作要求内存地址以32对齐。而直接定义来的float数组并非如此,可以直接输出变量地址进行验证

最终也找到两个解决方法

方法一:使用不严格对齐操作
_mm256_loadu_ps() 代替 _mm256_load_ps()
_mm256_storeu_ps() 代替_mm256_store_ps()
等等

方法二:定义变量时规定内存对齐
根据编译器的不同而有不同的具体要求,在本例中我使用GCC编译器,因而具体改动如下

__attribute__ ((aligned (32))) float x[8] = { 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 }, result[8];
__attribute__ ((aligned (32))) float out[8];

在这类数组定义前加上__attribute__ ((aligned (32)))

如果是MSVC编译器,则是__declspec(align(32))

四、成功运行结果

LInux运行结果

参考资料

AVX segmentation fault on linux – Stack Overflow
SSE/AVX加速时的内存对齐问题
c++ - 使用 AVX vector 警告编译旧版 GCC 代码
github.com/JustasMasiulis/xorstr/issues

文章来源:https://blog.csdn.net/zachariah2000/article/details/120731767
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ppmy.cn/news/415990.html

相关文章

AVX指令集实现矩阵乘

本节矩阵乘选择方阵 思想&#xff1a;c语言默认按行优先存储&#xff0c;矩阵a * b&#xff0c;a的行连续&#xff0c;可以连续访存&#xff0c;大大提高效率&#xff1b;但是b要按列取数&#xff0c;所以去b的列向量浪费时间&#xff0c;解决办法是&#xff1a;将b转置存储&am…

c语言替换avx指令集,普及一下,关于SB的AVX指令集

5、operands 的寻址 AVX 能够支持到 4 个 operands。因此&#xff0c;operands 寻址依靠以下几个域来提供&#xff1a; &#xff0a; VEX.vvvv&#xff1a;提供对 dest、src1 以及 src2 寄存器操作数的寻址。 &#xff0a; ModRM.reg&#xff1a;也可提供对 dest、src1 以及 sr…

AVX指令集函数列表中文翻译

AVX指令集函数列表 基于Intel Intrinsics Guide 3.62&#xff0c;不包括AVX、AVX2中的以__mm开头的函数。本文档建议初学者学习&#xff0c;详细内容请查看官方文档。 Arithmetic __m256i _mm256_add_epi16 (__m256i a, __m256i b) 16位整形向量a加b Add packed 16-bit in…

关于指令集AVX AVX2学习笔记

X86 SSE/AVX 指令集 指令集介绍&#xff1a; SSE/AVX 指令集是Intel公司设计的、对X86体系的SIMD的拓展指令集&#xff0c;基于向量化技术&#xff0c;提高硬件的并行计算能力&#xff0c;增强X86多核向量处理器的图像处理和视频处理能力。 查看电脑支持的指令集 Lscpu 相关…

AVX图像算法优化系列二: 使用AVX2指令集加速查表算法。

查表算法&#xff0c;无疑也是一种非常常用、有效而且快捷的算法&#xff0c;我们在很多算法的加速过程中都能看到他的影子&#xff0c;在图像处理中&#xff0c;尤其常用&#xff0c;比如我们常见的各种基于直方图的增强&#xff0c;可以说&#xff0c;在photoshop中的调整菜单…

英特尔® 高级矢量扩展(AVX)指令集简介

来源&#xff1a;https://software.intel.com/zh-cn/articles/introduction-to-intel-advanced-vector-extensions 作者&#xff1a;Chris Lomont 下载文章 下载 英特尔 高级矢量扩展指令集简介 [PDF 1.4MB] 英特尔 高级矢量扩展指令集&#xff08;英特尔 AVX&#xff09;是…

AVX指令集

AVX指令集 一、AVX指令集二、AVX编程0、编译1、数据类型2、函数名称3、基本函数&#xff08;1&#xff09;初始化&#xff08;2&#xff09;数据读取&#xff08;3&#xff09;数据写回&#xff08;4&#xff09;算术运算&#xff08;5&#xff09;类型转换&#xff08;6&#…

MySQL高级篇-索引分析与优化、数据库锁机制与主从复制

MySQL高级 基于MySQL版本5.5 MySQL的架构介绍 MySQL简介 概述 MySQL是一个关系型数据库管理系统&#xff0c;由瑞典MySQL AB公司开发&#xff0c;目前属于Oracle公司。 MySQL是一种关联数据库管理系统&#xff0c;将数据保存在不同的表中&#xff0c;而不是将所有的数据放在…