为什么每个 block 运行超过 32 个线程时性能会提高?
我的显卡有 480 个 CUDA 内核 (15 MS * 32 SP)。
最佳答案
每个 SM 有 1-4 个 warp 调度器(Tesla = 1,Fermi = 2,Kepler = 4)。每个 warp 调度程序负责执行分配给 SM 的 warp 的子集。每个 warp 调度程序维护一个符合条件的 warp 列表。如果 warp 可以在下一个周期发出指令,则它是合格的。如果 warp 在数据依赖性上停止,等待获取和指令,或者下一条指令的执行单元正忙,则 warp 不合格。在每个周期中,每个 warp 调度程序将从符合条件的 warp 列表中选择一个 warp,并发出 1 或 2 条指令。
每个 SM 的活跃 warp 越多,每个 warp 调度程序必须在每个周期中选择的 warp 数量就越大。在大多数情况下,当每个 SM 有足够的事件 warp,每个周期每个 warp 调度程序有 1 个合格的 warp 时,可以实现最佳性能。超出此点增加入住率不会提高性能,而且可能会降低性能。
事件扭曲的典型目标是 SM 最大扭曲的 50-66%。发射配置支持的扭曲与最大扭曲的比率称为理论占用率。每个周期的事件 warp 与每个周期的最大 warp 的运行时间比率是 Achieved Occupancy。对于 GTX480(CC 2.0 设备),设计内核时一个好的起点是 50-66% 的理论占用率。 CC 2.0 SM 最多可以有 48 个扭曲。 50% 的占用率意味着每个 SM 有 24 个 warp 或 768 个线程。
Nsight Visual Studio 版本中的 CUDA 分析事件可以显示理论占用率、实现的占用率、每个 SM 的事件 warp、每个 SM 的合格 warp 以及停滞原因。
CUDA 可视化分析器、nvprof 和命令行分析器可以显示理论占用率、事件扭曲和实现的占用率。
注意:CUDA 内核的数量应该只用于比较类似架构的卡,计算理论 FLOPS,并可能比较架构之间的差异。设计算法时不要使用计数。
关于c++ - 当运行的线程多于内核时,CUDA 性能会提高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13765374/
总的来说,我对ruby还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
在选择我想要运行操作的频率时,唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。 最佳答案 这不是一个优雅的解决方案,但您可以安排它每天运行,并在实际开始工作之前检查日期是否为当月的第一天。 关于ruby-如何每月在Heroku运行一次Scheduler插件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/8692687/
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗?我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何rubygems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server
Sinatra新手;我正在运行一些rspec测试,但在日志中收到了一堆不需要的噪音。如何消除日志中过多的噪音?我仔细检查了环境是否设置为:test,这意味着记录器级别应设置为WARN而不是DEBUG。spec_helper:require"./app"require"sinatra"require"rspec"require"rack/test"require"database_cleaner"require"factory_girl"set:environment,:testFactoryGirl.definition_file_paths=%w{./factories./test/
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
GivenIamadumbprogrammerandIamusingrspecandIamusingsporkandIwanttodebug...mmm...let'ssaaay,aspecforPhone.那么,我应该把“require'ruby-debug'”行放在哪里,以便在phone_spec.rb的特定点停止处理?(我所要求的只是一个大而粗的箭头,即使是一个有挑战性的程序员也能看到:-3)我已经尝试了很多位置,除非我没有正确测试它们,否则会发生一些奇怪的事情:在spec_helper.rb中的以下位置:require'rubygems'require'spork'
是否有可能:before_filter:authenticate_user!||:authenticate_admin! 最佳答案 before_filter:do_authenticationdefdo_authenticationauthenticate_user!||authenticate_admin!end 关于ruby-on-rails-before_filter运行多个方法,我们在StackOverflow上找到一个类似的问题: https://
前言作为一名程序员,自己的本质工作就是做程序开发,那么程序开发的时候最直接的体现就是代码,检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知,程序开发的水平提升是一个循序渐进的过程,每一位程序员都是从“菜鸟”变成“大神”的,所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力,尤其是新晋程序员的代码能力有很大的提升空间的时候,需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点,只要把握住这些方面,就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目,如有机会可以亲自参与开源