c++ - 向右移动4个整数不同的值SIMD

coder 2024-02-09 原文

SSE没有提供将打包整数移位可变数量的方法(我可以使用任何AVX及更早版本的指令)。您只能进行统一轮类。我试图为 vector 中的每个整数实现的结果是这样的。

i[0] = i[0] & 0b111111;
i[1] = (i[1]>>6) & 0b111111;
i[2] = (i[2]>>12) & 0b111111;
i[3] = (i[3]>>18) & 0b111111;

本质上是尝试在每个整数中隔离6位不同的组。

那么最佳的解决方案是什么？

我想到的事情:
您可以模拟可变的右移，可变的左移和统一的右移。我考虑过将打包整数分别乘以不同的量(因此模拟左移)。然后，使用该结果，您可以执行统一的右移操作以获得答案。我将用于乘法的特定操作的问题是_mm_mullo_epi32，它具有令人失望的延迟(haswell为10个周期)，并且给定我的程序，它将不得不等待结果，因为该特定结果是下一个依赖项指示。总的来说，我认为该方法仅比蛮力方法快一点，后者是解压缩，使用标量指令进行移位，然后重新打包 vector ，我认为这大约需要20个周期。

最佳答案

如果AVX2可用，则仅需要一条有效的指令。例如 __m128i _mm_srlv_epi32 (__m128i a, __m128i count) ( vpsrlvd )和256位版本。左，右算术和右逻辑提供了通过相应计数元素对32位和64位元素进行的可变移位。 (算术右移不适用于64位元素大小。)

AVX512BW添加了16位可变移位。

AVX512VBMI在每个qword 中具有 vpmultishiftqb 位域提取。有一个将其用于unpacking 8 nibbles into 8 bytes for int->hex的示例。为此，您将使用AND掩码来跟随它，因为它以8位块的形式捕获数据(但可以从不必与字节边界对齐的源位置中捕获数据)。

在没有AVX2的情况下进行仿真:

这部分属于哪种依赖链？您能否展开和交织，以便同时运行两个 vector ？如果两个较长的dep链并行很长，以至于无序窗口无法在下一个循环迭代中看到下一个dep链，则它们比一个较长的dep链好得多。

可能需要为您的函数制作一个单独的AVX2版本，以在Haswell和更高版本的CPU(可以在其中使用a variable-shift)上使用。如果这样做，您的函数将仅在效率最高的CPU上使用pmulld(mullo_epi32)。 (即，您避免在AVX2 CPU上使用SSE4.1 mullo_epi32，因为事实证明，这些CPU会使该指令变慢。)
pmulld看起来是我们在吞吐量和融合域uop计数上所能做到的最好方法，即使在Haswell上也是如此。

在SnB/IvB上，它是 vector 整数乘法单元的单个uop，整个功能仅为2 uops/6周期延迟/每1c吞吐量一个。 (这比我使用shift/blend所管理的要差，因此如果吞吐量/代码大小根本不重要，并且您不仅仅在延迟方面成为瓶颈，例如在展开后，就只想使用pmulld。)

如果移位计数是常量，并且寄存器的顶部有备用位，则可以乘以2的幂，然后使用固定的右移。 Shift right every DW in a __m128i by a different amount。对于您的位域提取来说，剔除高位不是问题，因为您必须进行AND运算以仅保留低位。

// See the godbolt link below for a version of this with more comments
// SnB/IvB: 6c latency, 2 fused-domain uops.
__m128i isolate_successive_6bits_mul (__m128i input)
{
  // We can avoid the AND if we shift the elements all the way to the left to knock off the high garbage bits.
  // 32 - 6 - 18 = 8 extra bits to left shift
    __m128i mul_constant = _mm_set_epi32(1<<(0+8), 1<<(6+8), 1<<(12+8), 1<<(18+8));
    __m128i left_vshift = _mm_mullo_epi32(input, mul_constant);
    __m128i rightshifted = _mm_srli_epi32(left_vshift, (18+8));
    return rightshifted;
}

混合智能方式:

(不幸的是，我们没有可在任何端口上运行的有效dword混合的AVX2 vpblendd。pblendw仅限于Intel CPU上的端口5。blendps可能有助于吞吐量(在任何端口上运行)，但会在整数指令之间引入旁路延迟)

移位和混合，以便每个元素以正确的总移位计数结束。

将所有内容合并为一个 vector 后，对低6位进行AND屏蔽。

与英特尔CPU上的蛮力方式(请参阅下文)具有相同的延迟，并且吞吐量更高(由于uops更少)。绑定(bind)port5的两个立即混合才是不错的选择。 (AVX2 vpblendd可以在任何端口上运行，但是我们只需要使用vpsrlvd即可。)

// seems to be optimal for Intel CPUs.
__m128i isolate_successive_6bits (__m128i input)
{ // input =   [ D      C      B     A ]
  // output =  [ D>>18  C>>12  B>>6  A ] & set1(0b111111)
    __m128i right12 = _mm_srli_epi32(input, 12);
    __m128i merged = _mm_blend_epi16(input, right12, 0xF0);  // copy upper half, like `movhps` (but don't use that because of extra bypass delay)
    // merged = [ D>>12  C>>12  B>>0  A>>0 ]
    __m128i right6 = _mm_srli_epi32(merged, 6);
    merged = _mm_blend_epi16(merged, right6, 0b11001100);    // blend in the odd elements
    // merged = [ D>>(12+6)  C>>12  B>>(0+6)  A>>0 ]        
    return _mm_and_si128(merged, _mm_set1_epi32(0b111111));  // keep only the low 6 bits
}

我放了both versions on the Godbolt compiler explorer。

这个版本只有5微码，使用gcc 5.3 -O3 -march=ivybridge编译:

    # input in xmm0, result in xmm0
isolate_successive_6bits:
    vpsrld          xmm1, xmm0, 12                # starts on cycle 0, result ready for the start of cycle 1
    vpblendw        xmm0, xmm0, xmm1, 240         # cycle 1
    vpsrld          xmm1, xmm0, 6                 # cycle 2
    vpblendw        xmm0, xmm0, xmm1, 204         # cycle 3
    vpand           xmm0, xmm0, XMMWORD PTR .LC0[rip] # cycle 4, result ready on cycle 5
    ret

每条指令都取决于前一条指令，因此它具有5c的延迟。 SnB/IvB/HSW/BDW CPU仅具有一个移位端口，因此它们无法利用更强力的版本中可用的并行性(该版本以不同的移位计数执行三个移位)。 Skylake可以，但是随后的两个混合周期吃完了改进。

“强力”方式:

对三个不同的移位计数进行三个移位，然后使用三个立即混合(pblendw)将四个 vector 组合为一个具有每个所需元素的 vector 。

// same latency as the previous version on Skylake
// slower on previous Intel SnB-family CPUs.
isolate_successive_6bits_parallel:
    vpsrld          xmm1, xmm0, 6            # cycle 0.   SKL: c0
    vpsrld          xmm2, xmm0, 12           # cycle 1 (resource conflict on pre-Skylake).  SKL: c0
    vpblendw        xmm1, xmm0, xmm1, 12     # cycle 2 (input dep).  SKL: c1
    vpsrld          xmm3, xmm0, 18           # cycle 2.  SKL: c1
    vpblendw        xmm0, xmm2, xmm3, 192    # cycle 3 (input dep). SKL: c2
    vpblendw        xmm0, xmm1, xmm0, 240    # cycle 4 (input dep). SKL: c3
    vpand           xmm0, xmm0, XMMWORD PTR .LC0[rip]  # cycle 5 (input dep). SKL: c4.
    ret

使用线性相关性链而不是树进行合并意味着合并可以在最后一个移位结果准备好后更快完成:

isolate_successive_6bits_parallel2:
    vpsrld          xmm1, xmm0, 6          # c0.  SKL:c0
    vpsrld          xmm2, xmm0, 12         # c1.  SKL:c0
    vpblendw        xmm1, xmm0, xmm1, 12   # c2.  SKL:c1
    vpblendw        xmm1, xmm1, xmm2, 48   # c3.  SKL:c2
    vpsrld          xmm0, xmm0, 18         # c2.  SKL:c1
    vpblendw        xmm0, xmm1, xmm0, 192  # c4.  SKL:c3 (dep on xmm1)
    vpand           xmm0, xmm0, XMMWORD PTR .LC0[rip] # c5.  SKL:c4
    ret

嗯，不，没有帮助。 SnB到BDW或SKL的延迟没有增加。第一次合并只能在一个移位之后发生，因为未移位的输入正是我们需要的一个元素。如果元素0需要一个非零的移位计数，则这种方式对于SKL之前的版本将具有优势，而对于SKL则可能不利。

关于c++ - 向右移动4个整数不同的值SIMD，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38363423/

amp 43 code xmm xmm0 c++x86 sse simd avx

有关c++ - 向右移动4个整数不同的值SIMD的更多相关文章

ruby - 多次弹出/移动 ruby 数组 - 2
我的代码目前看起来像这样numbers=[1,2,3,4,5]defpop_threepop=[]3.times{pop有没有办法在一行中完成pop_three方法中的内容？我基本上想做类似numbers.slice(0,3)的事情，但要删除切片中的数组项。嗯...嗯，我想我刚刚意识到我可以试试slice! 最佳答案是numbers.pop(3)或者numbers.shift(3)如果你想要另一边。关于ruby-多次弹出/移动ruby数组，我们在StackOverflow上找到一
ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
ruby - 如果指定键的值在数组中相同，如何合并哈希 - 2
我有一个这样的哈希数组:[{:foo=>2,:date=>Sat,01Sep2014},{:foo2=>2,:date=>Sat,02Sep2014},{:foo3=>3,:date=>Sat,01Sep2014},{:foo4=>4,:date=>Sat,03Sep2014},{:foo5=>5,:date=>Sat,02Sep2014}]如果:date相同，我想合并哈希值。我对上面数组的期望是:[{:foo=>2,:foo3=>3,:date=>Sat,01Sep2014},{:foo2=>2,:foo5=>5:date=>Sat,02Sep2014},{:foo4=>4,:dat
ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2
我有一个包含多个键的散列和一个字符串，该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么，如果包含，则返回它包含的键的值？例如，对于上面的h和s的例子，输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。最佳答案
ruby - 获取模块中定义的所有常量的值 - 2
我想获取模块中定义的所有常量的值:moduleLettersA='apple'.freezeB='boy'.freezeendconstants给了我常量的名字:Letters.constants(false)#=>[:A,:B]如何获取它们的值的数组，即["apple","boy"]？最佳答案为了做到这一点，请使用mapLetters.constants(false).map&Letters.method(:const_get)这将返回["a","b"]第二种方式:Letters.constants(false).map{|c
ruby-on-rails - 如何重命名或移动 Rails 的 README_FOR_APP - 2
当我在我的Rails应用程序根目录中运行rakedoc:app时，API文档是使用/doc/README_FOR_APP作为主页生成的。我想向该文件添加.rdoc扩展名，以便它在GitHub上正确呈现。更好的是，我想将它移动到应用程序根目录(/README.rdoc)。有没有办法通过修改包含的rake/rdoctask任务在我的Rakefile中执行此操作？是否有某个地方可以查找可以修改的主页文件的名称？还是我必须编写一个新的Rake任务？额外的问题:Rails应用程序的两个单独文件/README和/doc/README_FOR_APP背后的逻辑是什么？为什么不只有一个？
ruby - 使用 `+=` 和 `send` 方法 - 2
如何将send与+=一起使用？a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案恐怕你不能。+=不是方法，而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:
ruby-on-rails - rbenv:从 RVM 移动到 rbenv 后，在 Jenkins 执行 shell 中找不到命令 - 2
我从Ubuntu服务器上的RVM转移到rbenv。当我使用RVM时，使用bundle没有问题。转移到rbenv后，我在Jenkins的执行shell中收到“找不到命令”错误。我内爆并删除了RVM，并从~/.bashrc'中删除了所有与RVM相关的行。使用后我仍然收到此错误:rvmimploderm~/.rvm-rfrm~/.rvmrcgeminstallbundlerecho'exportPATH="$HOME/.rbenv/bin:$PATH"'>>~/.bashrcecho'eval"$(rbenvinit-)"'>>~/.bashrc.~/.bashrcrbenvversions
java - 为什么 ruby modulo 与 java/other lang 不同？ - 2
我基本上来自Java背景并且努力理解Ruby中的模运算。(5%3)(-5%3)(5%-3)(-5%-3)Java中的上述操作产生，2个-22个-2但在Ruby中，相同的表达式会产生21个-1-2.Ruby在逻辑上有多擅长这个？模块操作在Ruby中是如何实现的？如果将同一个操作定义为一个web服务，两个服务如何匹配逻辑。最佳答案在Java中，模运算的结果与被除数的符号相同。在Ruby中，它与除数的符号相同。remainder()在Ruby中与被除数的符号相同。您可能还想引用modulooperation.
ruby - 获取数组中的值并最小化某个类属性的最优雅的方法是什么？ - 2
假设我有以下类(class):classPersondefinitialize(name,age)@name=name@age=ageenddefget_agereturn@ageendend我有一组Person对象。是否有一种简洁的、类似于Ruby的方法来获取最小(或最大)年龄的人？如何根据它对它们进行排序？最佳答案这样做会:people_array.min_by(&:get_age)people_array.max_by(&:get_age)people_array.sort_by(&:get_age)

c++ - 向右移动4个整数不同的值SIMD

有关c++ - 向右移动4个整数不同的值SIMD的更多相关文章

随机推荐