jjzjj

c++ - 如何优化 SIMD 转置函数(8x4 => 4x8)?

我需要使用AVX优化8x4和4x8浮点矩阵的转置。我使用AgnerFog的vectorclasslibrary.青色任务-构建BVH并求和最小值-最大值。转置用于每个循环的最后阶段(它们也通过多线程进行了优化,但任务确实很多)。代码现在看起来像:voidtranspose(registerVec4f(&fin)[8],registerVec8f(&mat)[4]){for(inti=0;i(Vec4i(0,8,16,24)+i,(float*)mat);}}需要优化的变体。如何为SIMD优化此功能?我最近用vector类编写了自己的转置变体(4x8和8x4)。版本1.0。voidtra

c++ - 如何使用 avx 指令将 float vector 转换为 short int?

基本上,我如何使用AVX2内在函数编写与此等效的内容?我们这里假设result_in_float是__m256类型,而result是shortint*或短整数[8]。for(i=0;i我知道可以使用__m256i_mm256_cvtps_epi32(__m256m1)内在函数将float转换为32位整数,但不知道如何将这些32位整数进一步转换为16位整数。而且我不仅想要那个,还想要将这些值(以16位整数的形式)存储到内存中,我想全部使用vector指令来完成。在互联网上搜索,我发现了一个名为_mm256_mask_storeu_epi16的内在函数,但我不确定这是否能解决问题,因为我找

c++ - shuffle/permute 内在函数如何为 256 位 pd 工作?

我正在努力思考_mm256_shuffle_pd和_mm256_permute_pd内在函数的工作原理。我似乎无法预测其中一项操作的结果。首先,_mm_shuffle_ps一切正常。我得到的结果是我所期望的。例如:floatb[4]={1.12,2.22,3.33,4.44};__m128a=_mm_load_ps(&b[0]);a=_mm_shuffle_ps(a,a,_MM_SHUFFLE(3,0,1,2));_mm_store_ps(&b[0],a);//3.332.221.124.44所以一切都在这里。现在我想用我目前在我的代码中使用的__m256d来尝试这个。据我发现,_mm

c++ - AVX2 代码比没有 AVX2 慢

我一直在尝试开始使用AVX2指令,但运气不佳(this函数列表很有帮助)。最后,我编译了我的第一个程序并做我想做的事。我要做的程序需要两个u_char并把它加倍。本质上,我使用它来解码存储在来自相机的u_char数组中的数据,但我认为与此问题无关。获取double的过程两者中的u_char是:doubleresult=sqrt(double((msb哪里msb和lsb是两个u_char具有最高有效位(msb)和较低有效位(lsb)的变量double计算。数据存储在表示行主矩阵的数组中,其中msb和lsb值编码列i分别在第二行和第三行。我在有和没有AVX2的情况下对此进行了编码:void

c++ - AVX计算精度

我写了一个程序来显示mandelbrot集。为了加快速度,我通过使用了AVX(实际上是AVX2)指令。header。问题是:AVX计算(double)的结果有伪影,它与使用“正常”double计算的结果不同。详细来说,有一个函数getIterationCount它计算直到mandelbrot序列超过4的迭代次数,或者如果序列在前N个步骤中不超过4,则假定该点包含在集合中。代码如下所示:#include"stdafx.h"#include#include#includeclassMandelbrotSet{public:intgetIterationCount(conststd::com

c++ - 为什么 _umul128 的工作速度比 mul128x64x2 函数的标量代码慢?

我第二次尝试实现快速mul128x64x2功能。FirsttimeIaskthequestion与_umul128MSVC版本没有比较。现在我做了这样的比较,我得到的结果表明_umul128函数比原生标量和手工simdAVX1.0代码慢。在我的测试代码下面:#include#include#include#include#include#pragmaintrinsic(_umul128)constexpruint32_tLOW[4]={4294967295u,0u,4294967295u,0u};__forceinlinevoidmultiply128x128(constuint32_

c++ - AVX/SSE 回合向下 float 并返回整数 vector ?

有没有办法使用AVX/SSE获取浮点vector、向下舍入并生成整数vector?所有的floor内部方法似乎都产生了一个浮点的最终vector,这很奇怪,因为四舍五入产生了一个整数! 最佳答案 SSE可以从FP转换为整数,您可以选择截断(向零)或当前舍入模式(通常是IEEE默认模式,最接近平局舍入为偶数。像nearbyint(),与round()不同,其中tiebreak是远离0。如果您需要x86上的舍入模式,youhavetoemulateit,perhapswithtruncateasabuildingblock。)相关说明为

c++ - AVX 将 64 位整数转换为 64 位 float

我想使用AVX将4个打包的64位整数转换为4个打包的64位float。我试过类似的东西:int_64t*ls=(int64_t*)_mm_malloc(256,32);ls[0]=a;//...ls[3]=d;__mm256ipacked=_mm256_load_si256((__m256iconst*)ls);将在调试器中显示:(gdb)printpacked$4={1234,5678,9012,3456}到目前为止还好,但我能找到的唯一转换/转换操作是_mm256i_castsi256_pd,它无法满足我的要求:__m256dpd=_mm256_castsi256_pd(packe

c++ - 从 SSE 切换到 AVX 会受到惩罚吗?

我知道在没有先将所有ymm寄存器的上半部分清零的情况下从AVX指令切换到SSE指令的现有惩罚,但在我的机器(i7-3939K3.2GHz)上的特殊情况下,似乎即使我确实在AVX代码部分前后明确使用_mm256_zeroupper,也会对相反方向(SSE到AVX)造成很大的惩罚。我已经编写了在32位float和32位定点整数之间转换的函数,在2个32768个元素宽的缓冲区上。我将一个SSE2内部版本直接移植到AVX以在SSE的4个元素上同时处理8个元素,期望看到显着的性能提升,但不幸的是,相反的情况发生了。所以,我有两个功能:voidConvertPcm32FloatToPcm32Fix

c++ - 测试 AVX 寄存器是否包含一些相等的整数

考虑一个包含四个64位整数的256位寄存器。是否有可能在AVX/AVX2中有效地测试其中一些整数是否相等?例如:a){43,17,25,8}:结果必须是false因为4个数字中没有2个是相等的。b){47,17,23,17}:结果必须为“真”,因为编号17在AVXvector寄存器中出现2次。如果可能的话,我想在C++中执行此操作,但如有必要,我可以转到汇编。 最佳答案 对于AVX512(AVX512VL+AVX512CD),您将使用VPCONFLICTQ,专为此目的而设计。对于AVX2:通过减少冗余比较减少了一些操作:inttes