jjzjj

c++ - 尾调用优化似乎会稍微降低性能

coder 2024-02-04 原文

在快速排序实现中,左侧的数据是针对纯-O2优化的代码,右侧的数据是针对-O2优化的代码(已启用-fno-optimize-sibling-calls标志),即关闭了尾部调用优化功能。这是3次不同运行的平均值,变化似乎可以忽略不计。值的范围是1-1000,以毫秒为单位。编译器是MinGW g++,版本6.3.0。

size of array     with TLO(ms)    without TLO(ms)
      8M                35,083           34,051 
      4M                 8,952            8,627
      1M                   613              609

下面是我的代码:
#include <bits/stdc++.h>
using namespace std;

int N = 4000000;

void qsort(int* arr,int start=0,int finish=N-1){
    if(start>=finish) return ;
    int i=start+1,j = finish,temp;
    auto pivot = arr[start];
    while(i!=j){
        while (arr[j]>=pivot && j>i) --j;
        while (arr[i]<pivot && i<j) ++i;
        if(i==j) break;
        temp=arr[i];arr[i]=arr[j];arr[j]=temp; //swap big guy to right side
    }
    if(arr[i]>=arr[start]) --i;

    temp = arr[start];arr[start]=arr[i];arr[i]=temp; //swap pivot
    qsort(arr,start,i-1);
    qsort(arr,i+1,finish);
}

int main(){
    srand(time(NULL));
    int* arr = new int[N];
    for(int i=0;i<N;i++) {arr[i] = rand()%1000+1;}

    auto start = clock();
    qsort(arr);
    cout<<(clock()-start)<<endl;
    return 0;
}

我听说clock()并不是衡量时间的理想方法。但是这种效果似乎是一致的。

编辑:作为对评论的回应,我想我的问题是:解释gcc的尾部调用优化器是如何工作的,这是如何发生的,我应该怎么利用尾部调用来加速我的程序?

最佳答案

速度:

正如评论中已经指出的那样,尾部调用优化的主要目标是减少堆栈的使用。

但是,通常会有附带要求:程序变得更快,因为调用函数不需要任何开销。如果函数本身的工作量不那么大,则此 yield 最为显着,因此开销会有一定的负担。

如果在函数调用期间完成了大量工作,则可以忽略开销,并且没有明显的提速。

另一方面,如果完成了尾部调用优化,则意味着可能无法进行其他优化,否则可能会加速您的代码。

快速排序的情况不是很明确:有些电话的工作量很大,而很多电话的工作量很小。

因此,对于1M元素,尾部调用优化还有更多缺点。在我的机器上,对于小于50000元素的数组,尾部调用优化函数的速度比未优化函数快。

我必须说,我不能承认,为什么仅从assembly来看就是这种情况。我所能理解的是,生成的程序集完全不同,而且quicksort实际上对于优化版本而言仅被调用过一次。

有一个明确的例子,对于它的尾部调用优化要快得多(因为函数本身没有发生太多事情,并且开销很明显):

//fib.cpp
#include <iostream>

unsigned long long int fib(unsigned long long int n){
  if (n==0 || n==1)
    return 1;
  return fib(n-1)+fib(n-2);
}

int main(){
  unsigned long long int N;
  std::cin >> N;
  std::cout << fib(N);
}

运行time echo "40" | ./fib,我得到1.11.6秒的对比,以了解尾部调用优化版本与非优化版本。实际上,令我印象深刻的是,编译器能够在此处使用尾调用优化-但确实如此(如godbolt.org所示)-对fib的第二次调用进行了优化。

关于尾声优化:

通常,如果递归调用是函数中的最后一个操作(在return之前),则可以完成尾部调用优化-堆栈中的变量可用于下一个调用,即该函数的形式应为
ResType f( InputType input){
    //do work
    InputType new_input = ...;
    return f(new_input);
}

有些语言根本不进行尾部调用优化(例如python),有些语言可以明确要求编译器执行,如果编译器无法执行,则编译器将失败(例如clojure)。 c++介于两者之间:编译器尽力而为(这真是太好了!),但是您不能保证它会成功,如果不成功,它会默默地降级为没有尾调用优化的版本。

让我们看一下尾调用递归的简单和标准实现:
//should be called fac(n,1)
unsigned long long int 
fac(unsigned long long int n, unsigned long long int res_so_far){
  if (n==0)
    return res_so_far;
  return fac(n-1, res_so_far*n);
}

这种经典形式的尾部调用使编译器易于优化:请参见结果here-无需递归调用fac!

但是,gcc编译器也可以在不太明显的情况下执行TCO:
unsigned long long int 
fac(unsigned long long int n){
  if (n==0)
    return 1;
  return n*fac(n-1);
}

对于我们人类来说,它更容易读写,但为编译器进行优化则更难(有趣的事实:如果返回类型为int而不是unsigned long long int,则不会执行TCO):毕竟,递归调用的结果用于进一步的计算(乘法)返回之前。但是gcc manages也可以在这里执行TCO!

在此示例的手边,我们可以看到TCO在工作中的结果:
//factorial.cpp
#include <iostream>

unsigned long long int 
fac(unsigned long long int n){
  if (n==0)
    return 1;
  return n*fac(n-1);
}

int main(){
  unsigned long long int N;
  std::cin >> N;
  std::cout << fac(N);
}

如果启用了尾部调用优化功能,则运行time echo "40000000" | ./factorial将立即获得结果(0),否则运行“Segmentation fault”(否则将导致段错误)-由于递归深度导致堆栈溢出。

实际上,这是查看是否执行了尾调用优化的简单测试:未优化版本和较大递归深度的“段错误”。

推论:

如注释中已经指出的那样:仅第二个quick-sort调用是通过TLO优化的。在实现中,如果很不幸,并且数组的后半部分始终仅包含一个元素,则堆栈上需要O(n)空间。

但是,如果第一次调用总是使用较小的一半,而第二次调用使用较大的一半是TLO,则最多需要O(log n)递归深度,因此堆栈上仅需要O(log n)空间。

这意味着您应该先检查数组的哪一部分,然后再调用quicksort,因为它起着巨大的作用。

关于c++ - 尾调用优化似乎会稍微降低性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46812511/

有关c++ - 尾调用优化似乎会稍微降低性能的更多相关文章

  1. ruby-on-rails - 如何优雅地重启 thin + nginx? - 2

    我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server

  2. 使用 ACL 调用 upload_file 时出现 Ruby S3 "Access Denied"错误 - 2

    我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常,除了该文件不是公开可用的,而且我无法获得它的公共(public)URL。但是当我登录到S3时,我可以正常查看我的文件。为了使其公开可用,我将最后一行更改为obj.upload_file(file

  3. c# - 如何在 ruby​​ 中调用 C# dll? - 2

    如何在ruby​​中调用C#dll? 最佳答案 我能想到几种可能性:为您的DLL编写(或找人编写)一个COM包装器,如果它还没有,则使用Ruby的WIN32OLE库来调用它;看看RubyCLR,其中一位作者是JohnLam,他继续在Microsoft从事IronRuby方面的工作。(估计不会再维护了,可能不支持.Net2.0以上的版本);正如其他地方已经提到的,看看使用IronRuby,如果这是您的技术选择。有一个主题是here.请注意,最后一篇文章实际上来自JohnLam(看起来像是2009年3月),他似乎很自在地断言RubyCL

  4. java - 从 JRuby 调用 Java 类的问题 - 2

    我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www

  5. ruby - 调用其他方法的 TDD 方法的正确方法 - 2

    我需要一些关于TDD概念的帮助。假设我有以下代码defexecute(command)casecommandwhen"c"create_new_characterwhen"i"display_inventoryendenddefcreate_new_character#dostufftocreatenewcharacterenddefdisplay_inventory#dostufftodisplayinventoryend现在我不确定要为什么编写单元测试。如果我为execute方法编写单元测试,那不是几乎涵盖了我对create_new_character和display_invent

  6. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  7. ruby - 使用 `+=` 和 `send` 方法 - 2

    如何将send与+=一起使用?a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案 恐怕你不能。+=不是方法,而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:

  8. C51单片机——实现用独立按键控制LED亮灭(调用函数篇) - 2

    说在前面这部分我本来是合为一篇来写的,因为目的是一样的,都是通过独立按键来控制LED闪灭本质上是起到开关的作用,即调用函数和中断函数。但是写一篇太累了,我还是决定分为两篇写,这篇是调用函数篇。在本篇中你主要看到这些东西!!!1.调用函数的方法(主要讲语法和格式)2.独立按键如何控制LED亮灭3.程序中的一些细节(软件消抖等)1.调用函数的方法思路还是比较清晰地,就是通过按下按键来控制LED闪灭,即每按下一次,LED取反一次。重要的是,把按键与LED联系在一起。我打算用K1来作为开关,看了一下开发板原理图,K1连接的是单片机的P31口,当按下K1时,P31是与GND相连的,也就是说,当我按下去时

  9. ruby-on-rails - 在 heroku 的 .fonts 文件夹中包含自定义字体,似乎无法识别它们 - 2

    Heroku支持人员告诉我,为了在我的Web应用程序中使用自定义字体(未安装在系统中,您可以在bash控制台中使用fc-list查看已安装的字体)我必须部署一个包含所有字体的.fonts文件夹里面的字体。问题是我不知道该怎么做。我的意思是,我不知道文件名是否必须遵循heroku的任何特殊模式,或者我必须在我的代码中做一些事情来考虑这种字体,或者如果我将它包含在文件夹中它是自动的......事实是,我尝试以不同的方式更改字体的文件名,但根本没有使用该字体。为了提供更多详细信息,我们使用字体的过程是将PDF转换为图像,更具体地说,使用rghostgem。并且最终图像根本不使用自定义字体。在

  10. ruby - 如何找到调用当前方法的方法 - 2

    如何找到调用此方法的位置?defto_xml(options={})binding.pryoptions=options.to_hifoptions&&options.respond_to?(:to_h)serializable_hash(options).to_xml(options)end 最佳答案 键入caller。这将返回当前调用堆栈。文档:Kernel#caller.例子[0]%rspecspec10/16|===================================================62=====

随机推荐