c++ - OpenMP:为什么这个应用程序有时会扩展？

coder 2024-02-25 原文

我正在尝试在 Intel® Core™ i5-6500 CPU @ 3.20GHz × 4 上使用 OpenMP 加速 OpenCV SIFT 算法.您可以在 sift.cpp 中找到代码.

最昂贵的部分是描述符计算，特别是:

static void calcDescriptors(const std::vector<Mat>& gpyr, const std::vector<KeyPoint>& keypoints,
                            Mat& descriptors, int nOctaveLayers, int firstOctave )
{
    int d = SIFT_DESCR_WIDTH, n = SIFT_DESCR_HIST_BINS;
    for( size_t i = 0; i < keypoints.size(); i++ )
    {
        KeyPoint kpt = keypoints[i];
        int octave, layer;
        float scale;
        unpackOctave(kpt, octave, layer, scale);
        CV_Assert(octave >= firstOctave && layer <= nOctaveLayers+2);
        float size=kpt.size*scale;
        Point2f ptf(kpt.pt.x*scale, kpt.pt.y*scale);
        const Mat& img = gpyr[(octave - firstOctave)*(nOctaveLayers + 3) + layer];

        float angle = 360.f - kpt.angle;
        if(std::abs(angle - 360.f) < FLT_EPSILON)
            angle = 0.f;
        calcSIFTDescriptor(img, ptf, angle, size*0.5f, d, n, descriptors.ptr<float>((int)i));
    }
}

该函数的串行版本取52 ms一般。

此 for具有很高的粒度:已执行 604次(这是 keypoints.size() )。 for内部的主要耗时组件是 calcSIFTDescriptor这需要大部分的周期时间计算，并且需要 105 us平均而言，但经常发生的情况是:200us或 50us .

然而，我们非常幸运:每个 for 之间没有依赖关系。循环，所以我们可以添加:

#pragma omp parallel for schedule(dynamic,8)

并获得初始加速。 dynamic引入选项是因为它的性能似乎比 static 好一点。 (不知道为什么)。

问题是它真的很不稳定，不能扩展 .这是在并行模式下计算函数所需的时间:
25ms 43ms 32ms 15ms 27ms 53ms 21ms 24ms
正如您所看到的，只有在四核系统中达到最佳加速比 ( 15ms )。大多数情况下，我们达到了最佳加速比的一半:25ms在四核系统中只有理论最佳加速比的一半。

为什么会发生这种情况？我们该怎样改进这个？

更新:
正如评论中所建议的，我尝试使用更大的数据集。使用巨大的图像，串行版本需要13574ms计算描述符，而并行版本 3704ms与之前相同的四核。好多了:即使它不是最好的理论结果，它实际上也可以很好地扩展。但实际上问题仍然存在，因为之前的结果是从典型图像中获得的。

更新 1:正如评论所建议的那样，我尝试在“热模式”执行之间没有任何间隔的情况下进行基准测试(有关更多详细信息，请参阅评论)。更频繁地获得更好的结果，但仍然有很多变化。这是在热模式下运行 100 次的时间(以毫秒为单位):

43 42  14  26  14  43  13  26  15  51  15  20  14  40  34  15  15  31  15  22  14  21  17  15  14  27  14  16  14  22  14  22  15  15  14  43  16  16  15  28  14  24  14  36  15  32  13  21  14  23  14  15  13  26  15  35  13  32  14  36  14  34  15  40  28  14  14  15  15  35  15  22  14  17  15  23  14  24  17  16  14  35  14  29  14  25  14  32  14  28  14  34  14  30  22  14  15  24  14  31

你可以看到很多好的结果( 14ms ， 15ms )但也有很多可怕的结果( >40ms )。平均值为 22ms请注意，最多没有 4ms顺序模式的变化:

52 54  52  52  51  52  52  53  53  52  53  51  52  53  53  54  53  53  53  53  54  53  54  54  53  53  53  52  53  52  51  52  52  53  54  54  54  55  55  55  54  54  54  53  53  52  52  52  51  52  54  53  54  54  54  55  54  54  52  55  52  52  52  51  52  51  52  52  51  51  52  52  53  53  53  53  55  54  55  54  54  54  55  52  52  52  51  51  52  51  51  51  52  53  53  54  53  54  53  55

更新 2:

我注意到在“热模式”基准测试期间每个 CPU 使用率是相当随机的，而且它从不达到80%以上，如下图所示:

相反，下图显示了我通过 make -j4 编译 OpenCV 时的 CPU 利用率。 .如您所见，它更稳定并且几乎 100% 使用了它:

我认为这是第一张图像的变化是正常的，因为我们多次执行同一个短程序，这比一个大程序更不稳定。我不明白的是为什么我们从未达到超过 80% 的 CPU 利用率 .

最佳答案

我强烈建议您使用一些性能工具，例如 Paraver ( http://www.bsc.es/paraver )、TAU ( http://www.cs.uoregon.edu/research/tau/home.php ) Vampir ( https://tu-dresden.de/die_tu_dresden/zentrale_einrichtungen/zih/forschung/projekte/vampir ) 甚至 Intel 的 Vtune ( https://software.intel.com/en-us/intel-vtune-amplifier-xe )。

这些工具将帮助您了解线程在哪里花费它们的周期。使用它们，您可以发现应用程序是否不平衡(通过 IPC 或指令)，是否存在由于内存带宽或错误共享问题而导致的任何限制，以及许多其他问题。

关于c++ - OpenMP:为什么这个应用程序有时会扩展？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38216689/

有关c++ - OpenMP:为什么这个应用程序有时会扩展？的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby - 在 Ruby 程序执行时阻止 Windows 7 PC 进入休眠状态 - 2
我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep，它会中断应用程序。否则，计算机将持续运行数周，直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗？欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数，使应用程序能够通知系统它正在使用中，从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
ruby - 在 Ruby 中编写命令行实用程序 - 2
我想用ruby编写一个小的命令行实用程序并将其作为gem分发。我知道安装后，Guard、Sass和Thor等某些gem可以从命令行自行运行。为了让gem像二进制文件一样可用，我需要在我的gemspec中指定什么。最佳答案 Gem::Specification.newdo|s|...s.executable='name_of_executable'...endhttp://docs.rubygems.org/read/chapter/20 关于ruby-在Ruby中编写命令行实用程序
ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby-on-rails - Rails 应用程序之间的通信 - 2
我构建了两个需要相互通信和发送文件的Rails应用程序。例如，一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情，所以我什至不知道从哪里开始。任何帮助，将不胜感激。谢谢! 最佳答案无论Rails是什么，几乎所有Web应用程序都有您的要求，大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去，网站不应直接访问彼此

c++ - OpenMP:为什么这个应用程序有时会扩展？

有关c++ - OpenMP:为什么这个应用程序有时会扩展？的更多相关文章

随机推荐