jjzjj

c++ - SSE 和 AVX 内在函数混合

除了SSE-copy,AVX-copyandstd::copyperformance.假设我们需要按以下方式对某些循环进行矢量化:1)通过AVX对第一个循环批处理(乘以8)进行矢量化。2)将循环的剩余部分分成两批。通过SSE向量化4的倍数的批处理。3)通过串行例程处理整个循环的剩余批处理。让我们考虑复制数组的例子:#includetemplatevoidsimd_copy(float*src,float*dest){autosrc_=src;autodest_=dest;//VectorizefirstpartofloopviaAVXfor(;src_!=src+unroll_boun

c++ - 防止 GCC 在使用 -mavx 和 -mfma 编译时自动使用 AVX 和 FMA 指令

如何使用AVX和FMA指令禁用自动矢量化?我仍然希望编译器自动使用SSE和SSE2,而不是FMA和AVX。我的代码使用AVX检查其可用性,但GCC在自动矢量化时不这样做。因此,如果我使用-mfma进行编译并在Haswell之前的任何CPU上运行代码,我将得到SIGILL。如何解决这个问题? 最佳答案 您要做的是为每个目标指令集编译不同的目标文件。然后创建一个cpu调度程序,它向CPUID询问可用的指令集,然后跳转到函数的适当版本。我已经在几个不同的问题和答案中对此进行了描述disable-avx2-functions-on-non-

c++ - 未解析的外部符号 __mm256_setr_epi64x

我已经用g++编写和调试了一些AVX代码,现在我正试图让它与MSVC一起工作,但我不断得到errorLNK2019:unresolvedexternalsymbol__mm256_setr_epi64xreferencedinfunction"private:union__m256i__thiscallavx_matrix::avx_bit_mask(unsignedint)const"(?avx_bit_mask@avx_matrix@@ABE?AT__m256i@@I@Z)引用的代码是...#include.../*Allzerosexceptforpos-thposition(0

c++ - 向右移动4个整数不同的值SIMD

SSE没有提供将打包整数移位可变数量的方法(我可以使用任何AVX及更早版本的指令)。您只能进行统一轮类。我试图为vector中的每个整数实现的结果是这样的。i[0]=i[0]&0b111111;i[1]=(i[1]>>6)&0b111111;i[2]=(i[2]>>12)&0b111111;i[3]=(i[3]>>18)&0b111111;本质上是尝试在每个整数中隔离6位不同的组。那么最佳的解决方案是什么?我想到的事情:您可以模拟可变的右移,可变的左移和统一的右移。我考虑过将打包整数分别乘以不同的量(因此模拟左移)。然后,使用该结果,您可以执行统一的右移操作以获得答案。我将用于乘法的特

c# - 为什么只有 AVX 的处理器在许多 SIMD 算法方面优于 AVX2 处理器?

我一直在研究C#和C++中SIMD算法的优势,发现在许多情况下,在AVX处理器上使用128位寄存器比在具有AVX2的处理器上使用256位寄存器提供更好的改进,但是我不明白为什么。我所说的改进是指在同一台机器上SIMD算法相对于非SIMD算法的加速。 最佳答案 在AVX处理器上,256位寄存器的上半部分和浮点单元在不执行AVX指令(VEX编码操作码)时由CPU关闭。当代码确实使用AVX指令时,CPU必须为FP单元加电——这大约需要70微秒,在此期间,AVX指令实际上使用128个微操作执行两次。当AVX指令在大约700微秒内未被使用时,

c++ - 使用 AVX 内在函数计算具有允许标量值 0、1 和 2 的 vector 的内积

我正在做两列数以万计的内积。这些值只能是0、1或2。因此它们可以存储为字符。如果在带有avx标志的CPU上对计算进行矢量化,我预计它会快~32倍。但问题是乘法会自动将字符转换为整数,即4个字节。因此最多只能获得8倍的速度。能否达到32倍的速度?顺便说一句,我正在使用带有g++5.1的Linux(迄今为止的Fedora22)。 最佳答案 假设您有AVX2(不只是AVX,它只适用于float),那么你可以使用vpmaddubsw指令,它的内在是:__m256i_mm256_maddubs_epi16(__m256ia,__m256ib)

c++ - 使用 SIMD (AVX2) 进行稀疏数组压缩

我有一个稀疏数组a(主要是零):unsignedchara[1000000];我想创建一个b索引数组a在带有AVX2的英特尔x64架构上使用SIMD指令。我正在寻找如何有效地做到这一点的技巧。具体来说,是否有SIMD指令获取SIMD寄存器中连续排列的连续非零元素的位置? 最佳答案 计算非零值索引的五种方法是:半向量化循环:用字符加载SIMDvector,与零进行比较并应用移动掩码。如果任何字符非零,则使用小标量循环(也由@stgatilov建议)。这适用于非常稀疏的数组。下面代码中的函数arr2ind_movmsk使用了BMI1指令

c++ - 如何在 C/C++ 中执行 _mm256_maskstore_epi8()?

问题我想做的是,如果我有一个27(不是32!)的vectorint8_t:x={0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26}我想首先将它向右循环移位n(不是常数),例如如果n=1:x2={26,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25}然后这个vector被用来做一些非常复杂的计算,但是为了简单起见,我们假设下一步只是将它循环左移n,然后存入内存。所以我应该有一个新的vector27int8_t:

c++ - SSE 和 AVX 的 channel / channel 改组?

哪些SSE/AVX指令将channel从a打乱为b和c?float4a={data[0],data[1],data[2],data[3]};float4b={data[1],data[2],data[3],data[0]};//lanesshiftedleftfloat4c={data[3],data[0],data[1],data[2]};//lanesshiftedrightfloat8a={data[0],data[1],data[2],data[3],data[4],data[5],data[6],data[7]};float8b={data[1],data[2],data[3

c++ - `__m256` 的包装器使用构造函数产生段错误 - Windows 64 + MinGW + AVX 问题

我有一个看起来像这样的unionunionbareVec8f{__m256m256;//avx8xfloatvectorfloatfloats[8];intints[8];inlinebareVec8f(){}inlinebareVec8f(__m256vec){this->m256=vec;}inlinebareVec8f&operator=(__m256m256){this->m256=m256;return*this;}inlineoperator__m256&(){returnm256;}}__m256需要在32字节边界上对齐才能与SSE函数一起使用,并且应该自动对齐,即使在u