c++ - 尾调用优化似乎会稍微降低性能

coder 2024-02-04 原文

在快速排序实现中，左侧的数据是针对纯-O2优化的代码，右侧的数据是针对-O2优化的代码(已启用-fno-optimize-sibling-calls标志)，即关闭了尾部调用优化功能。这是3次不同运行的平均值，变化似乎可以忽略不计。值的范围是1-1000，以毫秒为单位。编译器是MinGW g++，版本6.3.0。

size of array     with TLO(ms)    without TLO(ms)
      8M                35,083           34,051 
      4M                 8,952            8,627
      1M                   613              609

下面是我的代码:

#include <bits/stdc++.h>
using namespace std;

int N = 4000000;

void qsort(int* arr,int start=0,int finish=N-1){
    if(start>=finish) return ;
    int i=start+1,j = finish,temp;
    auto pivot = arr[start];
    while(i!=j){
        while (arr[j]>=pivot && j>i) --j;
        while (arr[i]<pivot && i<j) ++i;
        if(i==j) break;
        temp=arr[i];arr[i]=arr[j];arr[j]=temp; //swap big guy to right side
    }
    if(arr[i]>=arr[start]) --i;

    temp = arr[start];arr[start]=arr[i];arr[i]=temp; //swap pivot
    qsort(arr,start,i-1);
    qsort(arr,i+1,finish);
}

int main(){
    srand(time(NULL));
    int* arr = new int[N];
    for(int i=0;i<N;i++) {arr[i] = rand()%1000+1;}

    auto start = clock();
    qsort(arr);
    cout<<(clock()-start)<<endl;
    return 0;
}

我听说clock()并不是衡量时间的理想方法。但是这种效果似乎是一致的。

编辑:作为对评论的回应，我想我的问题是:解释gcc的尾部调用优化器是如何工作的，这是如何发生的，我应该怎么利用尾部调用来加速我的程序？

最佳答案

速度:

正如评论中已经指出的那样，尾部调用优化的主要目标是减少堆栈的使用。

但是，通常会有附带要求:程序变得更快，因为调用函数不需要任何开销。如果函数本身的工作量不那么大，则此 yield 最为显着，因此开销会有一定的负担。

如果在函数调用期间完成了大量工作，则可以忽略开销，并且没有明显的提速。

另一方面，如果完成了尾部调用优化，则意味着可能无法进行其他优化，否则可能会加速您的代码。

快速排序的情况不是很明确:有些电话的工作量很大，而很多电话的工作量很小。

因此，对于1M元素，尾部调用优化还有更多缺点。在我的机器上，对于小于50000元素的数组，尾部调用优化函数的速度比未优化函数快。

我必须说，我不能承认，为什么仅从assembly来看就是这种情况。我所能理解的是，生成的程序集完全不同，而且quicksort实际上对于优化版本而言仅被调用过一次。

有一个明确的例子，对于它的尾部调用优化要快得多(因为函数本身没有发生太多事情，并且开销很明显):

//fib.cpp
#include <iostream>

unsigned long long int fib(unsigned long long int n){
  if (n==0 || n==1)
    return 1;
  return fib(n-1)+fib(n-2);
}

int main(){
  unsigned long long int N;
  std::cin >> N;
  std::cout << fib(N);
}

运行time echo "40" | ./fib，我得到1.1与1.6秒的对比，以了解尾部调用优化版本与非优化版本。实际上，令我印象深刻的是，编译器能够在此处使用尾调用优化-但确实如此(如godbolt.org所示)-对fib的第二次调用进行了优化。

关于尾声优化:

通常，如果递归调用是函数中的最后一个操作(在return之前)，则可以完成尾部调用优化-堆栈中的变量可用于下一个调用，即该函数的形式应为

ResType f( InputType input){
    //do work
    InputType new_input = ...;
    return f(new_input);
}

有些语言根本不进行尾部调用优化(例如python)，有些语言可以明确要求编译器执行，如果编译器无法执行，则编译器将失败(例如clojure)。 c++介于两者之间:编译器尽力而为(这真是太好了!)，但是您不能保证它会成功，如果不成功，它会默默地降级为没有尾调用优化的版本。

让我们看一下尾调用递归的简单和标准实现:

//should be called fac(n,1)
unsigned long long int 
fac(unsigned long long int n, unsigned long long int res_so_far){
  if (n==0)
    return res_so_far;
  return fac(n-1, res_so_far*n);
}

这种经典形式的尾部调用使编译器易于优化:请参见结果here-无需递归调用fac!

但是，gcc编译器也可以在不太明显的情况下执行TCO:

unsigned long long int 
fac(unsigned long long int n){
  if (n==0)
    return 1;
  return n*fac(n-1);
}

对于我们人类来说，它更容易读写，但为编译器进行优化则更难(有趣的事实:如果返回类型为int而不是unsigned long long int，则不会执行TCO):毕竟，递归调用的结果用于进一步的计算(乘法)返回之前。但是gcc manages也可以在这里执行TCO!

在此示例的手边，我们可以看到TCO在工作中的结果:

//factorial.cpp
#include <iostream>

unsigned long long int 
fac(unsigned long long int n){
  if (n==0)
    return 1;
  return n*fac(n-1);
}

int main(){
  unsigned long long int N;
  std::cin >> N;
  std::cout << fac(N);
}

如果启用了尾部调用优化功能，则运行time echo "40000000" | ./factorial将立即获得结果(0)，否则运行“Segmentation fault”(否则将导致段错误)-由于递归深度导致堆栈溢出。

实际上，这是查看是否执行了尾调用优化的简单测试:未优化版本和较大递归深度的“段错误”。

推论:

如注释中已经指出的那样:仅第二个quick-sort调用是通过TLO优化的。在实现中，如果很不幸，并且数组的后半部分始终仅包含一个元素，则堆栈上需要O(n)空间。

但是，如果第一次调用总是使用较小的一半，而第二次调用使用较大的一半是TLO，则最多需要O(log n)递归深度，因此堆栈上仅需要O(log n)空间。

这意味着您应该先检查数组的哪一部分，然后再调用quicksort，因为它起着巨大的作用。

关于c++ - 尾调用优化似乎会稍微降低性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46812511/

amp 43 code br long c++algorithm optimization g++compiler-optimization

有关c++ - 尾调用优化似乎会稍微降低性能的更多相关文章

ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
使用 ACL 调用 upload_file 时出现 Ruby S3 "Access Denied"错误 - 2
我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常，除了该文件不是公开可用的，而且我无法获得它的公共(public)URL。但是当我登录到S3时，我可以正常查看我的文件。为了使其公开可用，我将最后一行更改为obj.upload_file(file
c# - 如何在 ruby 中调用 C# dll？ - 2
如何在ruby中调用C#dll？最佳答案我能想到几种可能性:为您的DLL编写(或找人编写)一个COM包装器，如果它还没有，则使用Ruby的WIN32OLE库来调用它；看看RubyCLR,其中一位作者是JohnLam，他继续在Microsoft从事IronRuby方面的工作。(估计不会再维护了，可能不支持.Net2.0以上的版本)；正如其他地方已经提到的，看看使用IronRuby，如果这是您的技术选择。有一个主题是here.请注意，最后一篇文章实际上来自JohnLam(看起来像是2009年3月)，他似乎很自在地断言RubyCL
java - 从 JRuby 调用 Java 类的问题 - 2
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java，并成功地将它与另一个Java包一起使用，但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
ruby - 调用其他方法的 TDD 方法的正确方法 - 2
我需要一些关于TDD概念的帮助。假设我有以下代码defexecute(command)casecommandwhen"c"create_new_characterwhen"i"display_inventoryendenddefcreate_new_character#dostufftocreatenewcharacterenddefdisplay_inventory#dostufftodisplayinventoryend现在我不确定要为什么编写单元测试。如果我为execute方法编写单元测试，那不是几乎涵盖了我对create_new_character和display_invent
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
ruby - 使用 `+=` 和 `send` 方法 - 2
如何将send与+=一起使用？a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案恐怕你不能。+=不是方法，而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:
C51单片机——实现用独立按键控制LED亮灭（调用函数篇） - 2
说在前面这部分我本来是合为一篇来写的，因为目的是一样的，都是通过独立按键来控制LED闪灭本质上是起到开关的作用，即调用函数和中断函数。但是写一篇太累了，我还是决定分为两篇写，这篇是调用函数篇。在本篇中你主要看到这些东西！！！1.调用函数的方法（主要讲语法和格式）2.独立按键如何控制LED亮灭3.程序中的一些细节（软件消抖等）1.调用函数的方法思路还是比较清晰地，就是通过按下按键来控制LED闪灭，即每按下一次，LED取反一次。重要的是，把按键与LED联系在一起。我打算用K1来作为开关，看了一下开发板原理图，K1连接的是单片机的P31口，当按下K1时，P31是与GND相连的，也就是说，当我按下去时
ruby-on-rails - 在 heroku 的 .fonts 文件夹中包含自定义字体，似乎无法识别它们 - 2
Heroku支持人员告诉我，为了在我的Web应用程序中使用自定义字体(未安装在系统中，您可以在bash控制台中使用fc-list查看已安装的字体)我必须部署一个包含所有字体的.fonts文件夹里面的字体。问题是我不知道该怎么做。我的意思是，我不知道文件名是否必须遵循heroku的任何特殊模式，或者我必须在我的代码中做一些事情来考虑这种字体，或者如果我将它包含在文件夹中它是自动的......事实是，我尝试以不同的方式更改字体的文件名，但根本没有使用该字体。为了提供更多详细信息，我们使用字体的过程是将PDF转换为图像，更具体地说，使用rghostgem。并且最终图像根本不使用自定义字体。在
ruby - 如何找到调用当前方法的方法 - 2
如何找到调用此方法的位置？defto_xml(options={})binding.pryoptions=options.to_hifoptions&&options.respond_to?(:to_h)serializable_hash(options).to_xml(options)end 最佳答案键入caller。这将返回当前调用堆栈。文档:Kernel#caller.例子[0]%rspecspec10/16|===================================================62=====

c++ - 尾调用优化似乎会稍微降低性能

有关c++ - 尾调用优化似乎会稍微降低性能的更多相关文章

随机推荐