问题我想做的是,如果我有一个27(不是32!)的vectorint8_t:x={0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26}我想首先将它向右循环移位n(不是常数),例如如果n=1:x2={26,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25}然后这个vector被用来做一些非常复杂的计算,但是为了简单起见,我们假设下一步只是将它循环左移n,然后存入内存。所以我应该有一个新的vector27int8_t:
是否有一种固有的或其他有效的方法将AVX寄存器的64位组件的高/低32位组件重新打包到SSE寄存器中?使用AVX2的解决方案是可以的。到目前为止,我正在使用以下代码,但分析器显示它在Ryzen1800X上运行缓慢://Globalconstantconst__m256igHigh32Permute=_mm256_set_epi32(0,0,0,0,7,5,3,1);//...//functioncode__m256ix=/*computedhere*/;const__m128ihigh32=_mm256_castsi256_si128(_mm256_permutevar8x32_epi