jjzjj

c - MSVC 生成的符号表中 __real、__imp、__xmm 符号的含义

我是一名UNIX开发人员,负责帮助维护一些Windows软件,我正在查看.DEF生成器同时修复错误。它不包括__xmm,__real和__imp-来自导出的前缀符号。我一直在努力弄清楚这些符号到底是什么。很明显,它们不需要出现在.DEF中。文件(如果它们需要在DLL接口(interface)上导出,编译器将__declspec(dllexport)对其自身进行注释)但是......它们是什么?看起来排除__imp的目的前缀是排除functioncallthunks.正确吗?搜索MSDN未提供有关__xmm的信息或__real(顺便说一句,使用social.msdn.microsoft.

c++ - 为什么缓存行仅适用于模拟化?

我正在学习simd指令和内存缓存。我写了一个简单的测试来比较标量和SIMDizedsqrt计算:#include#includeusingnamespacestd;#include#include"xmmintrin.h"#includeconstintN=16;constintNIter=10000;floata[N][N]__attribute__((aligned(16)));floatb[N][N]__attribute__((aligned(16)));floatb_simd[N][N]__attribute__((aligned(16)));intmain(){//fill

c++ - 优化长时间的内存读写

我有一个名为reorder.cc的源文件,如下所示:voidreorder(float*output,float*input){output[56]=input[0];output[57]=input[1];output[58]=input[2];output[59]=input[3];output[60]=input[4];...output[75]=input[19];output[76]=input[20];output[77]=input[21];output[78]=input[22];output[79]=input[23];output[80]=input[24];...

c++ - 将单个 float 移动到 xmm 寄存器

我想将存储在一个xmm寄存器中的数据与一个浮点值相乘,并将结果保存在一个xmm寄存器中。我制作了一张小图来更好地解释它。如您所见,我有一个xmm0寄存器,其中包含我的数据。例如它包含:xmm0=|4.0|2.5|3.5|2.0|每个float存储在4个字节中。我的xmm0寄存器是128位,16字节长。效果还不错。现在我想将0.5存储在另一个xmm寄存器中,例如xmm1,并将该寄存器与xmm0寄存器相乘,使xmm0中存储的每个值都乘以0.5。我完全不知道如何在XMM寄存器中存储0.5。有什么建议吗?顺便说一句:它是C++中的内联汇编程序。voidfilter(image*src_imag

c++ - 如何截断 XMM 寄存器中的浮点值

如何只获取float的整数部分?所以,我有一个float组:x[4]={5.0,13.0,25.0,41.0};我把它放在xmm0中,然后用它做sqrt。我还需要一个命令来帮助仅获取此sqrt的一部分。例如5的sqrt将是2.236068,我只需要2.0的答案代码:__asm{movupsxmm0,xsqrtpsxmm0,xmm0//hereneedsomecommandmovupsx,xmm0} 最佳答案 使用roundps是最简单的。舍入模式表在其他地方,但您需要舍入模式3(接近零)。只有当输入保证在某个范围内(大约0到4.6e

c++ - 向右移动4个整数不同的值SIMD

SSE没有提供将打包整数移位可变数量的方法(我可以使用任何AVX及更早版本的指令)。您只能进行统一轮类。我试图为vector中的每个整数实现的结果是这样的。i[0]=i[0]&0b111111;i[1]=(i[1]>>6)&0b111111;i[2]=(i[2]>>12)&0b111111;i[3]=(i[3]>>18)&0b111111;本质上是尝试在每个整数中隔离6位不同的组。那么最佳的解决方案是什么?我想到的事情:您可以模拟可变的右移,可变的左移和统一的右移。我考虑过将打包整数分别乘以不同的量(因此模拟左移)。然后,使用该结果,您可以执行统一的右移操作以获得答案。我将用于乘法的特

c++ - 为什么我的直接四元数乘法比 SSE 快?

我经历了几个不同的四元数乘法实现,但我很惊讶地发现引用实现是迄今为止我最快的实现。这是有问题的实现:inlinestaticquatmultiply(constquat&lhs,constquat&rhs){returnquat((lhs.w*rhs.x)+(lhs.x*rhs.w)+(lhs.y*rhs.z)-(lhs.z*rhs.y),(lhs.w*rhs.y)+(lhs.y*rhs.w)+(lhs.z*rhs.x)-(lhs.x*rhs.z),(lhs.w*rhs.z)+(lhs.z*rhs.w)+(lhs.x*rhs.y)-(lhs.y*rhs.x),(lhs.w*rhs.w)

c++ - 使用 XMM0 寄存器和内存提取(C++ 代码)比仅使用 XMM 寄存器的 ASM 快两倍 - 为什么?

我正在尝试实现一些内联汇编程序(在VisualStudio2012C++代码中)以利用SSE。我想将7个数字相加1e9次,所以我将它们从RAM放置到xmm0到CPU的xmm6寄存器。当我使用以下代码在visualstudio2012中使用内联汇编时:C++代码:for(inti=0;i我的ASM代码:intcount=1000000000;doubleresVal=0.0;//placingvaluestoregister__asm{movsdxmm0,val1;placingvar1inxmm0registermovsdxmm1,val2movsdxmm2,val3movsdxmm3

c++ - 如何将两组 4 条短裤加载到 XMM 寄存器中?

我刚刚开始使用VisualC++2012使用SSE内部函数,我需要一些指导(没有双关语意)。我有两个数组,每个数组包含4个signedshort(因此每个数组都是64位的,总共128个)。我想将一个加载到XMM寄存器的高位,另一个加载到低位。我可以使用SSE内在函数有效地完成这项工作吗?如果是,怎么办? 最佳答案 SSE2:shortA[]={0,1,2,3};shortB[]={4,5,6,7};__m128ia,b,v;a=_mm_loadl_epi64((const__m128i*)A);b=_mm_loadl_epi64((

c++ - 使用(float&)int可以进行类型修剪,(float const&)int可以像(float)int那样转换吗?

VS2019版本x86。templatefloatget()const{intf=_mm_extract_ps(fmm,i);return(floatconst&)f;}当使用return(float&)f;编译器使用时extractpsm32,...movssxmm0,m32。正确的结果当使用return(floatconst&)f;编译器使用时extractpseax,...movdxmm0,eax。错误的结果T&和Tconst&首先是T,然后是const的主要思想。const只是程序员的某种协议(protocol)。您知道您可以解决它。但是汇编代码中没有任何const,只能输入f