我有一个关于使用 OpenMP(与 C++)的简单问题,我希望有人能帮助我。我在下面提供了一个小示例来说明我的问题。
#include<iostream>
#include<vector>
#include<ctime>
#include<omp.h>
using namespace std;
int main(){
srand(time(NULL));//Seed random number generator
vector<int>v;//Create vector to hold random numbers in interval [0,9]
vector<int>d(10,0);//Vector to hold counts of each integer initialized to 0
for(int i=0;i<1e9;++i)
v.push_back(rand()%10);//Push back random numbers [0,9]
clock_t c=clock();
#pragma omp parallel for
for(int i=0;i<v.size();++i)
d[v[i]]+=1;//Count number stored at v[i]
cout<<"Seconds: "<<(clock()-c)/CLOCKS_PER_SEC<<endl;
for(vector<int>::iterator i=d.begin();i!=d.end();++i)
cout<<*i<<endl;
return 0;
}
上述代码创建了一个 vector v,其中包含 [0,9] 范围内的 10 亿个随机整数。然后,代码循环遍历 v,计算每个不同整数的实例数量(即,在 v 中找到了多少个,有多少两个,等等)
每次遇到特定整数时,都会通过递增 vector d 的适当元素来对其进行计数。因此,d[0] 计算了多少个零,d[6] 计算了多少个六,等等。到目前为止有意义吗?
我的问题是当我试图使计数循环并行时。如果没有 #pragma OpenMP 语句,我的代码需要 20 秒,但是使用 pragma 需要超过 60 秒.
显然,我误解了一些与 OpenMP 相关的概念(可能是如何共享/访问数据?)。有人可以解释我的错误,或者用适当的关键字为我指出一些有见地的文献的方向以帮助我进行搜索吗?
最佳答案
您的代码展示:
出现竞争条件是因为您在多个线程中同时更新 vector d 的相同元素。注释掉 srand() 行并使用相同数量的线程(但不止一个线程)多次运行您的代码。比较不同运行的输出。
当两个线程写入彼此靠近的内存位置以导致同一缓存行时,就会发生错误共享。这会导致缓存行在多路系统中不断地从一个内核跳到另一个内核或从一个 CPU 跳到另一个 CPU,并且缓存一致性消息过多。每个缓存行 32 个字节, vector 的 8 个元素可以放在一个缓存行中。每个缓存行 64 字节,整个 vector d 适合一个缓存行。这使得代码在 Core 2 处理器上变慢,在 Nehalem 和后 Nehalem(例如 Sandy Bridge)处理器上稍微慢一些(但不像 Core 2 慢)。真正的共享发生在那些被两个或多个线程同时访问的元素上。您应该将增量放在 OpenMP atomic 构造中(慢),使用一组 OpenMP 锁来保护对 d 元素的访问(更快或更慢,具体取决于您的OpenMP 运行时)或累积本地值,然后进行最终的同步缩减(最快)。第一个是这样实现的:
#pragma omp parallel for
for(int i=0;i<v.size();++i)
#pragma omp atomic
d[v[i]]+=1;//Count number stored at v[i]
第二个是这样实现的:
omp_lock_t locks[10];
for (int i = 0; i < 10; i++)
omp_init_lock(&locks[i]);
#pragma omp parallel for
for(int i=0;i<v.size();++i)
{
int vv = v[i];
omp_set_lock(&locks[vv]);
d[vv]+=1;//Count number stored at v[i]
omp_unset_lock(&locks[vv]);
}
for (int i = 0; i < 10; i++)
omp_destroy_lock(&locks[i]);
(包含 omp.h 以访问 omp_* 函数)
第三个选项的实现由您来决定。
您正在使用 clock() 测量耗时,但它测量的是 CPU 时间,而不是运行时间。如果您有一个线程以 100% 的 CPU 使用率运行 1第二,然后 clock() 将指示 CPU 时间增加 1 秒。如果您有 8 个线程以 100% 的 CPU 使用率运行 1 秒,clock() 将指示 increate in CPU 时间为 8 秒(即 8 个线程乘以每个线程 1 个 CPU 秒)。请改用 omp_get_wtime() 或 gettimeofday()(或其他一些高分辨率计时器 API)。
关于c++ - OpenMP 和 C++ 并行 for 循环 : why does my code slow down when using OpenMP?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11652840/
我脑子里浮现出一些关于一种新编程语言的想法,所以我想我会尝试实现它。一位friend建议我尝试使用Treetop(Rubygem)来创建一个解析器。Treetop的文档很少,我以前从未做过这种事情。我的解析器表现得好像有一个无限循环,但没有堆栈跟踪;事实证明很难追踪到。有人可以指出入门级解析/AST指南的方向吗?我真的需要一些列出规则、常见用法等的东西来使用像Treetop这样的工具。我的语法分析器在GitHub上,以防有人希望帮助我改进它。class{initialize=lambda(name){receiver.name=name}greet=lambda{IO.puts("He
我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server
我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
似乎无法为此找到有效的答案。我正在阅读Rails教程的第10章第10.1.2节,但似乎无法使邮件程序预览正常工作。我发现处理错误的所有答案都与教程的不同部分相关,我假设我犯的错误正盯着我的脸。我已经完成并将教程中的代码复制/粘贴到相关文件中,但到目前为止,我还看不出我输入的内容与教程中的内容有什么区别。到目前为止,建议是在函数定义中添加或删除参数user,但这并没有解决问题。触发错误的url是http://localhost:3000/rails/mailers/user_mailer/account_activation.http://localhost:3000/rails/mai
当我在我的Rails应用程序根目录中运行rakedoc:app时,API文档是使用/doc/README_FOR_APP作为主页生成的。我想向该文件添加.rdoc扩展名,以便它在GitHub上正确呈现。更好的是,我想将它移动到应用程序根目录(/README.rdoc)。有没有办法通过修改包含的rake/rdoctask任务在我的Rakefile中执行此操作?是否有某个地方可以查找可以修改的主页文件的名称?还是我必须编写一个新的Rake任务?额外的问题:Rails应用程序的两个单独文件/README和/doc/README_FOR_APP背后的逻辑是什么?为什么不只有一个?
目前,Itembelongs_toCompany和has_manyItemVariants。我正在尝试使用嵌套的fields_for通过Item表单添加ItemVariant字段,但是使用:item_variants不显示该表单。只有当我使用单数时才会显示。我检查了我的关联,它们似乎是正确的,这可能与嵌套在公司下的项目有关,还是我遗漏了其他东西?提前致谢。注意:下面的代码片段中省略了不相关的代码。编辑:不知道这是否相关,但我正在使用CanCan进行身份验证。routes.rbresources:companiesdoresources:itemsenditem.rbclassItemi
如何将send与+=一起使用?a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案 恐怕你不能。+=不是方法,而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:
我对如何计算通过{%assignvar=0%}赋值的变量加一完全感到困惑。这应该是最简单的任务。到目前为止,这是我尝试过的:{%assignamount=0%}{%forvariantinproduct.variants%}{%assignamount=amount+1%}{%endfor%}Amount:{{amount}}结果总是0。也许我忽略了一些明显的东西。也许有更好的方法。我想要存档的只是获取运行的迭代次数。 最佳答案 因为{{incrementamount}}将输出您的变量值并且不会影响{%assign%}定义的变量,我