openMP

c++ - 编译器是否检测到错误的共享变量？

当我准备一些代码示例以向我的队友演示OpenMP时，我发现了一个奇怪的案例。首先我写了一个经典的循环:voidsequential(int*a,intsize,int*b){inti;for(i=0;ifor指令的正确OpenMP用法很简单。我们只需将inti声明移入范围，使其成为private。voidparallel_for(int*a,intsize,int*b){#pragmaompparallelforfor(inti=0;i但是当我编写以下函数时，由于共享intj，我预计我会得到与其他2个不同的结果，我声明了for循环范围之外。但是使用我的测试框架我没有看到我预期的错误，该

amp 43 code int section c++c++11 openmp

c++ - 我应该在 openMP 并行区域内使用 gnu 并行模式功能吗(for 循环，任务)

我有一个由openMP加速的程序，在并行区域内，函数如std::nth_element、std::sort、std::partition被调用。实际上，这些函数用于处理每个openmp-thread对应的数组部分。最近，我发现g++实现了上述函数的并行版本，所以我想知道我应该在#pragmaomptask中使用像__gnu_parallel::nth_element这样的函数还是#pragmaomp用于区域？如果我使用并行模式，线程总数是否会超过omp_set_num_threads()设置的限制并导致更差的加速？最佳答案简单(

amp openMP code section strong c++multithreading

c++ - OpenMP 并行代码与串行代码的输出不同

我不得不更改和扩展我的算法以进行一些信号分析(使用polyfilterbank技术)并且不能使用我的旧OpenMP代码，但是在新代码中结果并不像预期的那样(结果在开始位置与串行运行相比，该数组在某种程度上是不正确的[串行代码显示预期结果])。所以在第一个循环tFFTin中，我有一些FFT数据，我将其与窗口函数相乘。目标是一个线程为每个多相因子运行内部循环。为了避免锁定，我使用了reductionpragma(没有复杂的reduction是标准定义的，所以我使用我的那个，其中每个线程的omp_priv变量都用omp_orig[所以用tFFTin]初始化)。我使用有序pragma的原因是结

串行 amp section tFFTin omp c++multithreading algorithm signal-processing openmp

c++ - OpenMP:为什么这个应用程序有时会扩展？

我正在尝试在Intel®Core™i5-6500CPU@3.20GHz×4上使用OpenMP加速OpenCVSIFT算法.您可以在sift.cpp中找到代码.最昂贵的部分是描述符计算，特别是:staticvoidcalcDescriptors(conststd::vector&gpyr,conststd::vector&keypoints,Mat&descriptors,intnOctaveLayers,intfirstOctave){intd=SIFT_DESCR_WIDTH,n=SIFT_DESCR_HIST_BINS;for(size_ti=0;i=firstOctave&&la

amp OpenMP code strong br c++multithreading opencv parallel-processing

c++ - 我的归并排序算法使用 OpenMP 时速度较慢，我怎样才能让它比序列化形式更快？

我正在研究并行编程并在排序算法上对其进行测试。我发现最简单的方法是使用OpenMP，因为它提供了一种实现线程的简单方法。我做了一个研究，发现其他人已经这样做了，然后我尝试了一些代码。但是，当我在Linux上使用perfstat-r10-d测试它时，我得到的时间比序列化代码更糟糕(在某些情况下，它是时间的两倍)。我尝试在数组中使用不同数量的元素，我使用的最大值是1.000.000个数字，如果我使用更多，我会收到错误。voidmerge(intaux[],intleft,intmiddle,intright){inttemp[middle-left+1],temp2[right-middl

amp OpenMP middle right supported c++parallel-processing mergesort

c++ - 控制 OpenMP 程序中的 FPU 行为？

我有一个修改FPU控制字的大型C++程序(使用_controlfp())。它揭露一些FPU异常并安装SEHTranslator以生成类型化的C++异常。我正在使用VC++9.0。我想使用OpenMP(v.2.0)来并行化我们的一些计算循环。我已经成功地将它应用于一个，但数值结果略有不同(虽然我知道这也可能是由于计算以不同的顺序执行)。我假设这是因为FPU状态是特定于线程的。有没有办法让OpenMP线程从主线程继承该状态？或者是否有某种方法可以使用OpenMP指定新线程执行设置正确状态的特定函数？处理这种情况的惯用方法是什么？最佳答案

amp OpenMP section 定于 c++multithreading visual-c++floating-point

c++ - 多线程内联汇编

我正在尝试在T4机器上快速创建大量sha256哈希。T4有一条“sha256”指令，允许我在一个操作码中计算哈希值。我创建了一个内联汇编模板来调用sha256操作码:在我的C++代码中:extern"C"{voidProcessChunk(constchar*buf,uint32_t*state);}pchunk.il:.inlineProcessChunk,8.volatile/*copystate*/ldd[%o1],%f0/*load8bytes*/ldd[%o1+8],%f2/*load8bytes*/ldd[%o1+16],%f4/*load8bytes*/ldd[%o1+2

内联多线寄存 bytes ProcessChunk c++multithreading assembly openmp sparc

c++ - 使用#pragma omp parallel 让程序变慢

我的C++程序大约需要300秒才能运行。在我的程序中，我需要cwis划分我的vector。VS分析器告诉我们这大约需要15%的运行时间。这是代码:templatemyVectorcWisDivide(myVector&vec1,myVector&vec2){try{if(vec1._rows==vec2._rows){myVectorresult(vec1._rows);//#pragmaompparallelforfor(intr=1;r这个函数被调用了很多次。如果我在循环之前使用#pragma...，CPU使用率会保持100%大约350秒。这比按顺序运行程序所花费的时间还多。如果有

amp parallel section vec code c++openmp

c++ - OpenMP 未使用 Raspberry Pi 2 上的所有可用内核

我正在使用OpenTLD(使用OpenCV进行图像分析)在RaspberryPi2项目中进行对象跟踪。为了解决延迟问题(大约3秒的视频延迟)，我在编译时启用了OpenMP支持。现在，我只有大约2秒的延迟。运行top告诉我最多只有大约170%的CPU被opentld使用，这让我怀疑OpenMP只使用了两个RaspberryPi2四个核心。据我了解thisWikipediadiagram,OpenMP应该能够利用所有四个内核。这是OpenMP无法识别所有内核的问题，还是其他原因？最佳答案首先，您应该在控制台上执行exportOMP_

amp Raspberry section OpenMP code c++multithreading opencv raspberry-pi2

c++ - 为什么不编译？ (VC++ 2015，#pragma omp flush)

这是一个最小的例子。在VisualC++2015上使用“/openmp”编译。#includevoidmain(){boolfoo=false;#pragmaompflush(foo)std::vectorbar;}我得到:C2146syntaxerror:missing';'beforeidentifier'bar'C2275'std::vector>':illegaluseofthistypeasanexpressionC2065'bar':undeclaredidentifier如果我注释掉#pragma，错误就会消失。如果我将std::vector替换为int，错误就会消失。如

amp 43 code section pragma c++visual-c++openmp

123 4 5