jjzjj

c++ - 对于具有所有相同组件的 SSE vector ,是动态生成还是预先计算?

当我需要执行一个vector操作,其操作数只是广播到每个组件的float时,我应该预先计算__m256还是__m128,然后加载它当我需要它时,或者每次我需要vector时使用_mm_set1_ps将float广播到寄存器?我一直在预先计算非常重要且使用频繁的vector,并即时生成不太重要的vector。但是我真的通过预计算获得了任何速度吗?值得这么麻烦吗?_mm_set1_ps是用一条指令实现的吗?这可能会回答我的问题。 最佳答案 我认为通常最好从代码(例如循环)中分离出SSEvector,并在需要时使用它,假设您注意不要不小心

c++ - 正在生成缓慢的 vpermpd 指令;为什么?

我有一个过滤器m_f,它通过作用于输入vectorvReald2v=m_f[0]*v[i];for(size_tj=1;jperf告诉我们这个循环在哪里很热:vaddpd和vfma231pd是有意义的;没有他们,我们肯定无法执行此操作。但是缓慢的vpermpd让我感到困惑。它有什么作用? 最佳答案 vpermpd如果您的瓶颈是前端吞吐量(将uops馈送到无序核心),则只会在这里减慢您的速度。vpermpd并不是特别“慢”,除非您使用的是AMDCPU。(跨车道YMM洗牌在AMD的CPU上很慢,因为它们必须解码成比256位指令分成的正常

c++ - 使用 __m256d 寄存器

你如何使用__m256d?假设我想使用IntelAVX指令_mm256_add_pd在具有3-64位double精度组件(x、y和)的简单Vector3类上z).正确的使用方法是什么?由于x、y和z是Vector3类的成员,_我可以在union中使用__m256d变量声明它们吗?unionVector3{struct{doublex,y,z;};__m256d_register;//theIntelregister?};那我可以走了吗Vector3add(constVector3&o){Vector3result;result._register=_mm256_add_pd(_regi

c++ - 使用 SSE/AVX 获取存储在 __m256d 中的值的总和

有没有办法获取存储在__m256d变量中的值的总和?我有这个代码。acc=_mm256_add_pd(acc,_mm256_mul_pd(row,vec));//accinthispointcontains{2.0,8.0,18.0,32.0}acc=_mm256_hadd_pd(acc,acc);result[i]=((double*)&acc)[0]+((double*)&acc)[2];此代码有效,但我想用SSE/AVX指令替换它。 最佳答案 看来您正在对输出数组的每个元素进行水平求和。(也许作为matmul的一部分?)这通常

c++ - 静态/静态本地 SSE/AVX 变量是否阻塞了 xmm/ymm 寄存器?

使用SSE内在函数时,通常需要零vector。避免在调用函数时(每次有效地调用一些异或vector指令)在函数内创建零变量的一种方法是使用静态局部变量,如staticinline__m128inegate(__m128ia){static__m128izero=__mm_setzero_si128();return_mm_sub_epi16(zero,a);}似乎变量只在第一次调用函数时才被初始化。(我通过调用一个真正的函数而不是_mm_setzero_si128()内在函数来检查这一点。顺便说一下,它似乎只在C++中是可能的,而不是在C中。)(1)但是,一旦初始化发生:这是否会为程序

关于指令集AVX AVX2学习笔记

X86SSE/AVX指令集指令集介绍:SSE/AVX指令集是Intel公司设计的、对X86体系的SIMD的拓展指令集,基于向量化技术,提高硬件的并行计算能力,增强X86多核向量处理器的图像处理和视频处理能力。查看电脑支持的指令集Lscpu相关概念:寄存器:寄存器是CPU内部用来存放数据的一些小型存储区域,用来暂时存放参与运算的数据和运算结果。X86:Intelx86是英特尔公司于1978年推出的16位微处理器。x86泛指一系列基于Intel8086且向后兼容的中央处理器指令集架构向量化运算向量化操作和非向量化操作对比: 理论在向量化后的优化可以达到8倍的优化比1、操作对象:向量化是对cpu寄存

c++ - 使用英特尔 AVX 通过掩码改组

我是AVX编程的新手。我有一个需要洗牌的寄存器。我想将几个字节从256位寄存器R1混洗到空寄存器R2。我想定义一个掩码,它告诉混洗操作应该将旧寄存器(R1)中的哪个字节复制到新寄存器的哪个位置。掩码应如下所示(R1中的Src:BytePos,R2中的Target:BytePos):{(0,0),(1,1),(1,4),(2,5),...}这意味着几个字节被复制了两次。我不是100%确定我应该为此使用哪个函数。我尝试了这两个AVX功能,第二个只使用了2个channel。__m256_mm256_permute_ps(__m256a,intimm8)__m256_mm256_shuffle

c++ - 如何使用 SIMD 指令使预乘 alpha 函数更快?

我正在寻找一些SSE/AVX建议来优化将RGBchannel与其alphachannel预乘的例程:RGB*alpha/255(+我们保留原始的alphachannel)。for(inti=0,max=width*height*4;i(data[i]*data[i+3])/255;data[i+1]=static_cast(data[i+1]*data[i+3])/255;data[i+2]=static_cast(data[i+2]*data[i+3])/255;}您会在下面找到我当前的实现,但我认为它可能会快得多,而且我正在浪费宝贵的CPU周期。我在quick-bench.com上

c++ - AVX 中的水平异或

有没有办法对AVX寄存器进行水平异或——特别是对256位寄存器的四个64位组件进行异或?目标是获得AVX寄存器的所有4个64位组件的异或。它本质上与水平添加(_mm256_hadd_epi32())做同样的事情,除了我想要XOR而不是ADD。标量代码是:inlineuint64_tHorizontalXor(__m256it){returnt.m256i_u64[0]^t.m256i_u64[1]^t.m256i_u64[2]^t.m256i_u64[3];} 最佳答案 正如评论中所述,最快的代码很可能使用标量运算,在整数寄存器中执

c++ - 快速将 2 个 double 数组交织成具有 2 个 float 和 1 个 int(循环不变)成员的结构数组,并使用 SIMD double->float 转换?

我有一段代码是在x86处理器上运行的C++应用程序的瓶颈,我们从两个数组中获取double值,转换为float并存储在结构数组中。这是一个瓶颈的原因是它被调用时有非常大的循环,或者被调用了数千次。是否有使用SIMDIntrinsics执行此复制和强制转换操作的更快方法?我看过thisansweronfastermemcpy但没有解决类型转换问题。简单的C++循环情况如下所示int_iNum;constunsignedint_uiDefaultOffset;//aconstantdouble*pInputValues1;//arrayofdoublevalues,count=_iNum;