我写了一个简单的简单实现 ticket lock .锁定部分看起来像:
struct ticket {
uint16_t next_ticket;
uint16_t now_serving;
};
void lock(ticket* tkt) {
const uint16_t my_ticket =
__sync_fetch_and_add(&tkt->next_ticket, 1);
while (tkt->now_serving != my_ticket) {
_mm_pause();
__asm__ __volatile__("":::"memory");
}
}
std::atomic 来写这个,而不是使用 gcc 内在函数。 s:struct atom_ticket {
std::atomic<uint16_t> next_ticket;
std::atomic<uint16_t> now_serving;
};
void lock(atom_ticket* tkt) {
const uint16_t my_ticket =
tkt->next_ticket.fetch_add(1, std::memory_order_relaxed);
while (tkt->now_serving.load(std::memory_order_relaxed) != my_ticket) {
_mm_pause();
}
}
movzwl操作说明。为什么会有这个额外的mov ?有没有更好、更正确的方式来写 lock() ?-march=native -O3 : 0000000000000000 <lock(ticket*)>:
0: b8 01 00 00 00 mov $0x1,%eax
5: 66 f0 0f c1 07 lock xadd %ax,(%rdi)
a: 66 39 47 02 cmp %ax,0x2(%rdi)
e: 74 08 je 18 <lock(ticket*)+0x18>
10: f3 90 pause
12: 66 39 47 02 cmp %ax,0x2(%rdi)
16: 75 f8 jne 10 <lock(ticket*)+0x10>
18: f3 c3 repz retq
1a: 66 0f 1f 44 00 00 nopw 0x0(%rax,%rax,1)
0000000000000020 <lock(atom_ticket*)>:
20: ba 01 00 00 00 mov $0x1,%edx
25: 66 f0 0f c1 17 lock xadd %dx,(%rdi)
2a: 48 83 c7 02 add $0x2,%rdi
2e: eb 02 jmp 32 <lock(atom_ticket*)+0x12>
30: f3 90 pause
=> 32: 0f b7 07 movzwl (%rdi),%eax <== ???
35: 66 39 c2 cmp %ax,%dx
38: 75 f6 jne 30 <lock(atom_ticket*)+0x10>
3a: f3 c3 repz retq
cmp (%rdi),%dx直接地?
最佳答案
首先,我认为你需要使用std::memory_order_acquire ,因为您正在获取锁。如果您使用 mo_relaxed ,您可能会看到前一个锁持有者所做的一些存储之前的陈旧数据。 Jeff Preshing's blog is excellent, and he has a post on release/acquire semantics .
在 x86 上,只有编译器重新排序加载和存储时才会发生这种情况,mo_relaxed告诉它允许。获取加载与 x86 上的宽松加载编译相同,但无需重新排序。每个 x86 asm 负载都已经是一个获取。在需要它的弱排序架构上,您将获得加载获取所需的任何指令。 (而在 x86 上,您只会阻止编译器重新排序)。
我放了一个版本的代码on godbolt使用各种编译器查看 asm。
很好发现,这确实看起来像 gcc 优化失败,至少在 6.0 中仍然存在(使用 Wandbox 检查,使用 main 执行 return execlp("objdump", "objdump", "-Mintel", "-d", argv[0], NULL); 转储自身的反汇编输出,包括我们感兴趣的功能.
看起来 clang 3.7 在这方面做得更糟。它执行 16 位加载,然后零扩展,然后进行比较。
gcc 专门处理原子负载,显然没有注意到它可以将其折叠到比较中。可能是在原子加载仍然与常规加载不同的情况下发生的优化传递,或者其他什么。我不是 gcc 黑客,所以这主要是猜测。
我怀疑你有一个旧的 gcc(4.9.2 或更早),或者你正在/为 AMD 构建,因为你的编译器 used rep ret 即使与 -march=native .如果您关心生成最佳代码,您应该对此做一些事情。我注意到 gcc5 有时会编写比 gcc 4.9 更好的代码。 (虽然在这种情况下它没有帮助:/)
我尝试使用 uint32_t,但没有运气。
单独执行加载和比较对性能的影响可能无关紧要,因为该函数是一个忙等待循环。
快速路径(未锁定的情况,在第一次迭代时循环条件为假)仍然只有一个分支和一个 ret。但是,在 std:atomic 版本中,快速路径通过循环分支。因此,不是两个单独的分支预测器条目(一个用于快速路径,一个用于自旋循环),现在自旋可能会在下一个解锁情况下导致分支预测错误。这可能不是问题,新代码确实减少了一个分支预测器条目。
如果跳入循环中间,IDK 会对英特尔 SnB 系列微架构的 uop 缓存产生任何不良影响。它有点像跟踪缓存。 Agner Fog's testing发现同一段代码如果有多个跳转入口点,在uop缓存中可以有多个入口。这个函数已经有点对 uop-cache 不友好了,因为它以 mov r, imm / lock xadd 开头。 .锁 xadd 必须自己进入一个 uop 缓存行,因为它是微编码的(超过 4 个 uops。实际上是 9 个)。无条件跳转总是结束 uop 缓存行。我不确定采用的条件分支,但我猜如果它在解码时被预测采用,则采用的 jcc 会结束缓存行。 (例如,分支预测器条目仍然很好,但旧的 uop 缓存条目已被驱逐)。
因此,第一个版本可能是用于快速路径的 3 个 uops 缓存行:一个 mov (如果已内联,希望大部分内容都包含以前的说明),一个 lock xadd单独一个宏融合cmp/je到以下代码(如果内联。如果不是,则跳转的目标是 ret ,这可能最终成为此 32 字节代码块的第 4 个缓存行,这是不允许的。因此,此非内联版本可能始终具有每次都重新解码?)
std::atomic 版本再次是初始 mov imm 的一个 uop-cache 行。 (和前面的说明),然后 lock xadd ,然后 add / jmp ,然后......呃哦,movzx / compare-and-branch 需要第四个缓存行欧普。因此,即使内联,此版本也更有可能出现解码瓶颈。
幸运的是,前端仍然可以在运行此代码时取得一些进展并获得排队等待 OOO 核心的指令,因为 lock xadd是 9 uop。这足以涵盖前端的一两个更少的 uop,以及解码和 uop-cache 获取之间的切换。
这里的主要问题只是代码大小,因为您有问题。想要这个内联。在速度方面,快速路径只是稍微差一点,非快速路径无论如何都是自旋循环,所以没关系。
旧版本的快速路径是 11 个融合域 uops(1 mov imm 、9 lock xadd 、1 cmp/je 宏融合)。 cmp/je包括一个微融合内存操作数。
新版本的快速路径是 41 个融合域 uops(1 mov imm、9 lock xadd、1 add、1 jmp、1 movzx、5|67 |11)。
使用 cmp/je而不是仅在 add 的寻址模式中使用 8 位偏移量真的是在脚下射击,IMO。 IDK,如果 gcc 考虑得足够远,可以做出这样的选择,让循环分支目标出现在 16B 边界,或者这只是愚蠢的运气。
使用 OP 代码对 Godbolt 进行编译器识别实验:
movzx当它是分支目标时,即使是 rep ret (在 Haswell 上),或仅使用 -march=native -mtune=core2 . -march=core2与 rep ret在 Haswell 上,可能是因为 Haswell 对它来说太新了。 -march=native仅使用 -march=native -mtune=haswell ,所以它知道名字 ret . haswell与 ret (在哈斯韦尔)。仍在使用 -march=native当rep ret未指定。 关于c++ - 使用原子实现票证锁会产生额外的 mov,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33284236/
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po