xmm0_JJZJJ

c++ - 静态/静态本地 SSE/AVX 变量是否阻塞了 xmm/ymm 寄存器？

使用SSE内在函数时，通常需要零vector。避免在调用函数时(每次有效地调用一些异或vector指令)在函数内创建零变量的一种方法是使用静态局部变量，如staticinline__m128inegate(__m128ia){static__m128izero=__mm_setzero_si128();return_mm_sub_epi16(zero,a);}似乎变量只在第一次调用函数时才被初始化。(我通过调用一个真正的函数而不是_mm_setzero_si128()内在函数来检查这一点。顺便说一下，它似乎只在C++中是可能的，而不是在C中。)(1)但是，一旦初始化发生:这是否会为程序

寄存 amp section code c++sse avx

c++ - 检查 XMM 寄存器是否全为零

有没有办法检查__m128i变量中的所有位/字节/字等是否为0？在我的应用程序中，我必须检查__m128i变量中的所有整数是否都为零。我是否必须提取它们并分别进行比较？编辑:我现在做的是:intnext=0;do{//somecodenext=idata.m128i_i32[0]+idata.m128i_i32[1]+idata.m128i_i32[2]+idata.m128i_i32[3];}while(next>0);我需要的是检查idata是否全为零，而不必访问每个单独的元素，如果是则退出循环...根据Harold的评论，这是解决方案:__m128iidata=_mm_setr_

寄存 amp code section idata c++sse simd intrinsics

c++ - 为什么gcc/clang要用两个128bit的xmm寄存器来传递一个值？

所以我偶然发现了一些我想了解的东西，因为它让我头疼。我有以下代码:#include#includetypedefunion{struct{floatx,y,z,w;}v;__m128m;}vec;vec__attribute__((noinline))square(veca){vecx={.m=_mm_mul_ps(a.m,a.m)};returnx;}intmain(intargc,char*argv[]){floatf=4.9;veca=(vec){f,f,f,f};vecres=square(a);//?printf("%f%f%f%f\n",res.v.x,res.v.y,re

寄存 amp code section c++c assembly clang sse

windows - 为什么 Windows x64 调用约定不使用 XMM 寄存器来传递超过 4 个整数参数？

(微软)x64callingconvention状态:TheargumentsarepassedinregistersRCX,RDX,R8,andR9.Iftheargumentsarefloat/double,theyarepassedinXMM0L,XMM1L,XMM2L,andXMM3L.这很好，但为什么只是float/加倍？为什么整数(可能还有指针)不也通过XMM寄存器传递？似乎有点浪费可用空间，不是吗？最佳答案因为大多数对非FP值(即整数和地址)的操作都设计为使用通用寄存器。有整数SSE运算，但它们只是算术运算。因此，

寄存传递 section XMM windows assembly x86-64 sse calling-convention

windows - 为什么 Windows 64 选择要求保存/恢复 xmm6 和 xmm7？

为什么Windows64选择要求保存/恢复xmm6和xmm7？在Windows32中，您可以编写破坏xmm0...xmm7的汇编例程。但是如果你采用相同的汇编代码并在Windows64中运行它，它通常会导致应用程序错误，因为VS2007在xmm6和xmm7中存储double值。在我看来，既然X64有16个xmm寄存器xmm0...xmm15(而X32只有8个xmm寄存器)，那么微软本可以选择允许用户破坏xmm0..xmm7(以便他们可以重用程序集来自Win32的例程而无需考虑)但要求用户保存/恢复xmm8...xmm15。那么，为了满足我自己的好奇心，为什么Windows64选择要求保

xmm windows section win64 cpu-registers

c++ - 如何使用来自另一个 XMM 寄存器条目的 4 个相同 float 填充 x86 XMM 寄存器？

我正在尝试实现一些内联汇编器(在C/C++代码中)以利用SSE。我想将值(从XMM寄存器或内存)复制并复制到另一个XMM寄存器。例如，假设我在内存中有一些值{1,2,3,4}。我想复制这些值，使xmm1填充{1,1,1,1}，xmm2填充{2,2,2,2}，依此类推。查看英特尔引用手册，我找不到执行此操作的说明。我只需要结合使用重复的MOVSS和旋转(通过PSHUFD吗？)？最佳答案有两种方式:仅使用shufps:__m128first=...;__m128xxxx=_mm_shuffle_ps(first,first,0x00

寄存条目 first section code c++c x86 inline-assembly sse

c++ - 如何使用来自另一个 XMM 寄存器条目的 4 个相同 float 填充 x86 XMM 寄存器？

我正在尝试实现一些内联汇编器(在C/C++代码中)以利用SSE。我想将值(从XMM寄存器或内存)复制并复制到另一个XMM寄存器。例如，假设我在内存中有一些值{1,2,3,4}。我想复制这些值，使xmm1填充{1,1,1,1}，xmm2填充{2,2,2,2}，依此类推。查看英特尔引用手册，我找不到执行此操作的说明。我只需要结合使用重复的MOVSS和旋转(通过PSHUFD吗？)？最佳答案有两种方式:仅使用shufps:__m128first=...;__m128xxxx=_mm_shuffle_ps(first,first,0x00

寄存条目 first section code c++c x86 inline-assembly sse

c++ - 由 Visual Studio 2013 Update 2 和 Update 3 生成的 SSE 4 指令

如果我在VS2013Update2或Update3中编译此代码:(以下来自Update3)#include"stdafx.h"#include#includestructBuffer{long*data;intcount;};#ifndefmax#definemax(a,b)(((a)>(b))?(a):(b))#endiflongCode(long*data,intcount){longnMaxY=data[0];for(intnNode=0;nNodedistribution(0,100);buff.count=1;buff.data=newlong[1];buff.data[0]

Update amp code xmm xmm0 c++c++11 visual-studio-2013 sse

c++ - 由 Visual Studio 2013 Update 2 和 Update 3 生成的 SSE 4 指令

如果我在VS2013Update2或Update3中编译此代码:(以下来自Update3)#include"stdafx.h"#include#includestructBuffer{long*data;intcount;};#ifndefmax#definemax(a,b)(((a)>(b))?(a):(b))#endiflongCode(long*data,intcount){longnMaxY=data[0];for(intnNode=0;nNodedistribution(0,100);buff.count=1;buff.data=newlong[1];buff.data[0]

Update amp code xmm xmm0 c++c++11 visual-studio-2013 sse

c++ - 有没有办法利用所有 XMM 寄存器？

这是一个代码片段，用于计算从中获取的float组中的值的平方根http://felix.abecassis.me/2011/09/cpp-getting-started-with-sse/voidsse(float*a,intN){//WeassumeN%4==0.intnb_iters=N/4;__m128*ptr=(__m128*)a;for(inti=0;i当我分解这段代码时，我看到只使用了一个xmm(xmm0)。我假设展开循环会给编译器一个可以使用更多xmm的提示。我将代码修改为voidsse3(float*a,intN){__m128*ptr=(__m128*)a;for(i

寄存 amp mm_store_ps mm_sqrt_ps ssetest c++c compiler-construction sse