cuda

c++ - 从 1D 数组表示计算 3D 索引的有效方法

我有一个3D数据，存储在一维数组中。我这样计算一维索引:index=i+j*WIDTH+k*WIDTH*HEIGHT我需要从index中获取原始的i,j,k索引。显而易见的方法是这样的:k=index/(WIDTH*HEIGHT)j=(index%(WIDTH*HEIGHT))/WIDTHi=index-j*WIDTH-k*WIDTH*HEIGHT但我想知道，是否有更有效的方法来做到这一点？至少没有模...这个问题的上下文-我在CUDA中有一个内核，我可以在其中访问数据并计算i,j,k索引(index对应于唯一的线程ID).那么也许有一些特定于CUDA的方法可以做到这一点？我想这是一个

amp 43 code WIDTH index c++math cuda

c++ - 您使用什么库在 CUDA 上进行矩阵计算？

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。您使用什么库在CUDA上进行矩阵计算？或者有没有？好像每个人都是自己写的。对于通常的处理器，我使用Eigen.GPU呢？

上进 amp section notice class c++cuda scientific-computing

c++ - 如何使用 CUDA 生成随机排列

我可以使用哪些并行算法从给定的集合中生成随机排列？特别是适合CUDA的论文的建议或链接会很有帮助。这的顺序版本将是Fisher-Yates洗牌。例子:设S={1,2,...,7}为源索引集。目标是并行生成n个随机排列。n个排列中的每一个都恰好包含每个源索引一次，例如{7,6,...,1}。最佳答案 Fisher-Yatesshuffle可以并行化。例如，4个并发worker只需要3次迭代来洗牌8个元素的vector。在第一次迭代中，它们交换01、23、45、67；第二次迭代02、13、45、67；以及最后一次迭代04、15、26、

amp 43 code section BLOCK_SIZE c++algorithm cuda thrust

c++ - 对任意值类型的操作

这article描述了一种在C#中允许添加任意值类型的方法，这些值类型具有为其定义的+运算符。本质上它允许以下代码:publicTAdd(Tval1,Tval2){returnval1+val2;}此代码无法编译，因为不能保证T类型具有“+”运算符的定义，但效果是通过如下代码实现的:publicTAdd(Tval1,Tval2){//Numdefinesa'+'operationwhichreturnsavalueoftypeTreturn(newNum(val1)+newNum(val2));}点击链接查看Num类如何实现这一点。无论如何，关于这个问题。有什么方法可以在C或C++中实

amp 43 section val C++c++c cuda gpgpu value-type

c++ - 带有 float 的自定义内核 GpuMat

我正在尝试使用GpuMat数据编写自定义内核来查找图像像素的反余弦。当GPU有CV_8UC1数据但字符不能用于计算反余弦时，我可以在上传数据时上传、下载和更改值。但是，当我尝试将我的GPU转换为CV_32FC1类型(float)时，我在下载部分遇到了非法内存访问错误。这是我的代码://.cucode#include#include#include#include__global__voidfuncKernel(constfloat*srcptr,float*dstptr,size_tsrcstep,constsize_tdststep,intcols,introws){introwIn

自定 amp code float input c++opencv cuda gpu

c++ - CUDA素数生成

随着数据大小增加超过260k，我的CUDA程序停止工作(它不打印任何内容)。有人能告诉我为什么会这样吗？这是我的第一个CUDA程序。如果我想要更大的素数，如何在CUDA上使用大于longlongint的数据类型？显卡为GT425M。#include#include#include#defineSIZE250000#defineBLOCK_NUM96#defineTHREAD_NUM1024intdata[SIZE];__global__staticvoidsieve(int*num,clock_t*time){constinttid=threadIdx.x;constintbid=bl

amp 43 BLOCK_NUM int time c++c cuda gpu primes

c++ - float1 与 CUDA 中的 float

我注意到cuda中有一个float1结构类型。与简单的float相比，是否有任何性能优势，例如，在使用float数组与float1数组的情况下？struct__device_builtin__float1{floatx;};在float4中有一个性能优势，这取决于场合，因为对齐是4x4bytes=16bytes。是否仅用于带有float1参数的__device__函数？提前致谢。最佳答案关注@talonmies对帖子的评论CUDAThrustreductionwithdouble2arrays，我比较了使用CUDAThrust计

float amp code reduction c++c cuda

c++ - 大型跨平台软件项目的技巧/资源

我将开始一个涉及跨平台GUI和大量数字运算的大型软件项目。我计划用C++和CUDA编写大部分应用程序后端，并在Qt4中编写GUI。我计划使用Make作为我的构建系统。这将是一个只有两名开发人员的项目，一旦我对它进行了相对深入的研究，它可能最终会成为一个开源项目。我的主要问题是，是否有人有任何关于开发软件背后架构的技巧/资源。组织文件的好方法是什么？(与gui代码不同的文件夹中的数字运算代码，与已编译的可执行文件或其他东西分开？)构建系统如何为跨平台软件工作？我是否需要为每个平台设置不同的构建系统，或者我是否可以创建一个通用的“makefile”，根据调用它的平台进行不同的构建？我需要对

跨平台 amp section 的大部 c++qt4 cuda

c++ - 如何在设备内存中有效地随机播放数据？

问题在设备全局内存中移动许多随机(非合并)值时，哪种方法最有效？注意:许多值大于500。上下文我从事GPU的遗传算法实现已有一段时间了，我一直在努力在我的框架的灵active和GPU架构的微优化之间挣扎。GA数据始终驻留在GPU中。只有最佳代解决方案被复制到主机内存。详细场景我正在优化迁移功能。这里基本上很少有数据在设备全局内存中随机播放。但是我以这样的方式获得了我的数据顺序，它为GA运算符内核线程的内存访问方案合并，这使得洗牌一对“基因组”，一个跨越单个FLOAT值的问题，并以相同的跨步方式将它们与另一个基因组交换。已知解决方案问题不在于内存带宽，而是调用延迟和线程阻塞导致进程停滞的

何在 amp section em strong c++c cuda parallel-processing gpgpu

c++ - opencv源码用cuda编译生成多重定义链接错误

我想用cuda8构建opencv3.2，我已经在我的linux系统中安装了cuda所需的所有库，这是一个Debian9testing(stretch)4.9.0-1-amd64使用cmake成功生成makefile后，通过执行make命令出现多重定义链接错误。我用cmake尝试了很多配置，我也检查了很多论坛中几乎所有相关问题，但我找不到任何解决方案。在cmake中，我将cuda编译器更改为gcc-5，因为cuda8需要gcc编译器不晚于版本5，默认gcc编译器是版本6.3这是我的cmake配置输出:OpenCVmodules:Tobebuilt:cudevcorecudaarithmf

多重 amp cuda linux-gnu ver c++opencv gcc gpu

14 15 161718 19 20