c++ - 使用原子实现票证锁会产生额外的 mov

coder 2023-06-02 原文

我写了一个简单的简单实现 ticket lock .锁定部分看起来像:

struct ticket {
    uint16_t next_ticket;
    uint16_t now_serving;
};

void lock(ticket* tkt) {
    const uint16_t my_ticket =
        __sync_fetch_and_add(&tkt->next_ticket, 1); 
    while (tkt->now_serving != my_ticket) {
        _mm_pause();
        __asm__ __volatile__("":::"memory");
    }   
}

然后我意识到我可以用 std::atomic 来写这个，而不是使用 gcc 内在函数。 s:

struct atom_ticket {
    std::atomic<uint16_t> next_ticket;
    std::atomic<uint16_t> now_serving;
};

void lock(atom_ticket* tkt) {
    const uint16_t my_ticket =
        tkt->next_ticket.fetch_add(1, std::memory_order_relaxed);
    while (tkt->now_serving.load(std::memory_order_relaxed) != my_ticket) {
        _mm_pause();
    }   
}

这些生成几乎相同的程序集，但后者生成一个额外的 movzwl操作说明。为什么会有这个额外的mov ?有没有更好、更正确的方式来写 lock() ?

汇编输出 -march=native -O3 :

 0000000000000000 <lock(ticket*)>:
    0:   b8 01 00 00 00          mov    $0x1,%eax
    5:   66 f0 0f c1 07          lock xadd %ax,(%rdi)
    a:   66 39 47 02             cmp    %ax,0x2(%rdi)
    e:   74 08                   je     18 <lock(ticket*)+0x18>
   10:   f3 90                   pause  
   12:   66 39 47 02             cmp    %ax,0x2(%rdi)
   16:   75 f8                   jne    10 <lock(ticket*)+0x10>
   18:   f3 c3                   repz retq 
   1a:   66 0f 1f 44 00 00       nopw   0x0(%rax,%rax,1)

 0000000000000020 <lock(atom_ticket*)>:
   20:   ba 01 00 00 00          mov    $0x1,%edx
   25:   66 f0 0f c1 17          lock xadd %dx,(%rdi)
   2a:   48 83 c7 02             add    $0x2,%rdi
   2e:   eb 02                   jmp    32 <lock(atom_ticket*)+0x12>
   30:   f3 90                   pause  
=> 32:   0f b7 07                movzwl (%rdi),%eax <== ???
   35:   66 39 c2                cmp    %ax,%dx
   38:   75 f6                   jne    30 <lock(atom_ticket*)+0x10>
   3a:   f3 c3                   repz retq

为什么不只是 cmp (%rdi),%dx直接地？

最佳答案

首先，我认为你需要使用std::memory_order_acquire ，因为您正在获取锁。如果您使用 mo_relaxed ，您可能会看到前一个锁持有者所做的一些存储之前的陈旧数据。 Jeff Preshing's blog is excellent, and he has a post on release/acquire semantics .

在 x86 上，只有编译器重新排序加载和存储时才会发生这种情况，mo_relaxed告诉它允许。获取加载与 x86 上的宽松加载编译相同，但无需重新排序。每个 x86 asm 负载都已经是一个获取。在需要它的弱排序架构上，您将获得加载获取所需的任何指令。 (而在 x86 上，您只会阻止编译器重新排序)。

我放了一个版本的代码on godbolt使用各种编译器查看 asm。

很好发现，这确实看起来像 gcc 优化失败，至少在 6.0 中仍然存在(使用 Wandbox 检查，使用 main 执行 return execlp("objdump", "objdump", "-Mintel", "-d", argv[0], NULL); 转储自身的反汇编输出，包括我们感兴趣的功能.

看起来 clang 3.7 在这方面做得更糟。它执行 16 位加载，然后零扩展，然后进行比较。

gcc 专门处理原子负载，显然没有注意到它可以将其折叠到比较中。可能是在原子加载仍然与常规加载不同的情况下发生的优化传递，或者其他什么。我不是 gcc 黑客，所以这主要是猜测。

我怀疑你有一个旧的 gcc(4.9.2 或更早)，或者你正在/为 AMD 构建，因为你的编译器 used rep ret 即使与 -march=native .如果您关心生成最佳代码，您应该对此做一些事情。我注意到 gcc5 有时会编写比 gcc 4.9 更好的代码。 (虽然在这种情况下它没有帮助:/)

我尝试使用 uint32_t，但没有运气。

单独执行加载和比较对性能的影响可能无关紧要，因为该函数是一个忙等待循环。

快速路径(未锁定的情况，在第一次迭代时循环条件为假)仍然只有一个分支和一个 ret。但是，在 std:atomic 版本中，快速路径通过循环分支。因此，不是两个单独的分支预测器条目(一个用于快速路径，一个用于自旋循环)，现在自旋可能会在下一个解锁情况下导致分支预测错误。这可能不是问题，新代码确实减少了一个分支预测器条目。

如果跳入循环中间，IDK 会对英特尔 SnB 系列微架构的 uop 缓存产生任何不良影响。它有点像跟踪缓存。 Agner Fog's testing发现同一段代码如果有多个跳转入口点，在uop缓存中可以有多个入口。这个函数已经有点对 uop-cache 不友好了，因为它以 mov r, imm / lock xadd 开头。 .锁 xadd 必须自己进入一个 uop 缓存行，因为它是微编码的(超过 4 个 uops。实际上是 9 个)。无条件跳转总是结束 uop 缓存行。我不确定采用的条件分支，但我猜如果它在解码时被预测采用，则采用的 jcc 会结束缓存行。 (例如，分支预测器条目仍然很好，但旧的 uop 缓存条目已被驱逐)。

因此，第一个版本可能是用于快速路径的 3 个 uops 缓存行:一个 mov (如果已内联，希望大部分内容都包含以前的说明)，一个 lock xadd单独一个宏融合cmp/je到以下代码(如果内联。如果不是，则跳转的目标是 ret ，这可能最终成为此 32 字节代码块的第 4 个缓存行，这是不允许的。因此，此非内联版本可能始终具有每次都重新解码？)

std::atomic 版本再次是初始 mov imm 的一个 uop-cache 行。 (和前面的说明)，然后 lock xadd ，然后 add / jmp ，然后......呃哦，movzx / compare-and-branch 需要第四个缓存行欧普。因此，即使内联，此版本也更有可能出现解码瓶颈。

幸运的是，前端仍然可以在运行此代码时取得一些进展并获得排队等待 OOO 核心的指令，因为 lock xadd是 9 uop。这足以涵盖前端的一两个更少的 uop，以及解码和 uop-cache 获取之间的切换。

这里的主要问题只是代码大小，因为您有问题。想要这个内联。在速度方面，快速路径只是稍微差一点，非快速路径无论如何都是自旋循环，所以没关系。

旧版本的快速路径是 11 个融合域 uops(1 mov imm 、9 lock xadd 、1 cmp/je 宏融合)。 cmp/je包括一个微融合内存操作数。

新版本的快速路径是 41 个融合域 uops(1 mov imm、9 lock xadd、1 add、1 jmp、1 movzx、5|67 |11)。

使用 cmp/je而不是仅在 add 的寻址模式中使用 8 位偏移量真的是在脚下射击，IMO。 IDK，如果 gcc 考虑得足够远，可以做出这样的选择，让循环分支目标出现在 16B 边界，或者这只是愚蠢的运气。

使用 OP 代码对 Godbolt 进行编译器识别实验:

gcc 4.8 及更早版本:始终使用 movzx当它是分支目标时，即使是 rep ret (在 Haswell 上)，或仅使用 -march=native -mtune=core2 .

gcc 4.9:使用 -march=core2与 rep ret在 Haswell 上，可能是因为 Haswell 对它来说太新了。 -march=native仅使用 -march=native -mtune=haswell ，所以它知道名字 ret .

gcc 5.1 及更高版本:使用 haswell与 ret (在哈斯韦尔)。仍在使用 -march=native当rep ret未指定。

关于c++ - 使用原子实现票证锁会产生额外的 mov，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33284236/

票证 amp code ticket br c++multithreading x86 locking

有关c++ - 使用原子实现票证锁会产生额外的 mov的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

c++ - 使用原子实现票证锁会产生额外的 mov

有关c++ - 使用原子实现票证锁会产生额外的 mov的更多相关文章

随机推荐