cuda

c++ - Visual Studio 2010 (Windows 7) 中的 Hello World C++ CUDA 程序

我正在尝试编译这个HelloWorldprogram在安装了VisualStudio2010的Windows7中，但在运行nvcchellocuda.cu时出现以下错误消息:nvccfatal:nvcccannotfindasupportedclversion.OnlyMSVC8.0andMSVC9.0aresupported如何编译这个CUDA程序？最佳答案 NVCC从VisualStudio环境变量中检查VC++编译器版本。NVCC表示它仅支持MSVC8.0和9.0编译器。在您的情况下，您有MSVC10.0编译器。这个问题似乎

amp 43 section showtopic noreferrer c++visual-studio-2010 windows-7 cuda

c++ - CUDA、NPP 滤波器

CUDANPP库支持使用nppiFilter_8u_C1R命令过滤图像，但不断出现错误。我可以毫无问题地启动并运行boxFilterNPP示例代码。eStatusNPP=nppiFilterBox_8u_C1R(oDeviceSrc.data(),oDeviceSrc.pitch(),oDeviceDst.data(),oDeviceDst.pitch(),oSizeROI,oMaskSize,oAnchor);但如果我将其改为使用nppiFilter_8u_C1R，eStatusNPP将返回错误-24(NPP_TEXTURE_BIND_ERROR)。下面的代码是我对原始boxFilt

amp 43 section code oDeviceSrc c++image-processing cuda convolution npp

c++ - 使用 CUDA 实现、python (pycuda) 或 C++ 处理图像？

我在一个使用CUDA处理图像的项目中。该项目只是图像的加法或减法。请问您的专业意见，哪一个最好，这两者的优缺点是什么？我感谢大家的意见和/或建议，因为这个项目对我来说非常重要。最佳答案一般回答:没关系。使用您更习惯的语言。但是请记住，pycuda只是CUDAC接口(interface)的包装器，因此它可能并不总是最新的，它还增加了另一个潜在的错误来源，......Python非常擅长快速原型(prototype)制作，所以我个人会选择Python。如果需要，您以后可以随时切换到C++。

amp 43 section stackoverflow questions c++python cuda pycuda

c++ - OpenCL 或 CUDA 调用的开销？

我正在编写一个函数来处理很多BLASgemv操作。我希望能够在GPU上执行此操作，并且我已尝试使用cuBlas。我的问题是我的矩阵和vector相当小，100x100矩阵和100vector。与CPU相比，CuBlas需要很长时间，我知道为什么，CPU上的快速缓存和调用GPU的大量开销混合在一起。因此，我正在尝试找出一种聪明的方法来测量将调用传递给GPU所需的时间。这是CUDA设置调用并将其发送到图形处理器所花费的时间——不包括执行矩阵vector乘法实际花费的时间。我该怎么做？最佳答案更新:以下结果是针对2005硬件(nVid

amp OpenCL GPU section CPU c++cuda gpgpu timing

c++ - Cuda 工具包目录不存在

我对cuda4.1和visualstudio2010有疑问。当我想编译.cu文件时，出现以下错误:C:\ProgramFiles(x86)\MSBuild\Microsoft.Cpp\v4.0\BuildCustomizations\CUDA4.1.targets(249,9):error:TheCUDAToolkitdirectory''doesnotexist.PleaseverifytheCUDAToolkitisinstalledproperlyordefinetheCudaToolkitDirpropertytoresolvethiserror.我安装了干净的Windows7

工具包 amp section CUDA Toolkit c++visual-studio-2010

c++ - cuda 共享内存 - 结果不一致

我正在尝试进行并行缩减以对CUDA中的数组求和。目前我传递了一个数组，用于存储每个block中元素的总和。这是我的代码:#include#include#include#include#include#include#defineTHREADS_PER_BLOCK256#defineCUDA_ERROR_CHECK(ans){gpuAssert((ans),__FILE__,__LINE__);}usingnamespacestd;inlinevoidgpuAssert(cudaError_tcode,char*file,intline,boolabort=true){if(code!

amp 43 double3c double double3 c++memory cuda shared

支持CUDA运算的显卡算力表

GPUssupportedSupportedCUDAlevelofGPUandcard.CUDASDK1.0supportforcomputecapability1.0–1.1(TeslaCUDASDK1.1supportforcomputecapability1.0–1.1+x(Tesla)CUDASDK2.0supportforcomputecapability1.0–1.1+x(Tesla)CUDASDK2.1–2.3.1supportforcomputecapability1.0–1.3(Tesla)CUDASDK3.0–3.1supportforcomputecapability1.

CUDA 支持 GeForce align vertical-align 人工智能深度学习 python

c++ - 与 cuda 相关的 libstdc++.so.6 的链接器问题

今天我在链接我编译的cuda东西时遇到了问题。我有一个最新的debian测试w/2.6.32-3-amd64。我整天都在写我的代码。不时编译。没问题。但是在对代码进行了较小的更改后，我收到了以下错误:gcc-opaCUDA.ohistogram256.ohistogram64.omain.o-lrt-lm-lcudart-I.-I/data/cuda/include-I/data/cuda/C/common/inc-L/data/cuda/lib64/usr/bin/ld:main.o:undefinedreferencetosymbol'std::basic_ifstream>::c

amp 43 section lib so c++cuda libstdc++

c++ - 如何优化 VBO/IBO 以最大化 GPU 缓存使用

我正在使用在CUDA上运行的MarchingCubes算法从体积数据生成网格。我尝试过保存网格并以3种方式渲染它。将一组粗略的三角形保存为连续的顶点数据数组。如果第一次通过，我估计大小，创建一个OpenGLVBO，将其映射到CUDA并按照以下格式将顶点数据写入其中V0x,V0y,V0z,N0x,N0y,N0z,V1x,V1y,V1z,N1x,N1y,N1z,...并使用glDrawArrays()绘制它。RedundantVerticesinVBO,RedundantVerticesperCube,NoIndices.从步骤1中获取网格，使用thrust::sort()和thrust:

最大化 amp code section blockquote c++opengl cuda thrust

c++ - 扭曲如何与原子操作一起工作？

warp中的线程在物理上并行运行，所以如果其中一个(称为线程X)启动原子操作，其他线程会做什么？等待？这是否意味着，当线程X被推送到原子队列时，所有线程都将等待，获取访问权限(互斥锁)并使用内存做一些事情，内存受到该互斥锁的保护，然后才是真正的互斥锁？有没有办法让其他线程进行某些工作，比如读取一些内存，这样原子操作会隐藏它的延迟？我的意思是，有15个空闲线程......我猜不太好。Atomic真的很慢，是吗？我怎样才能加速它？有什么模式可以使用它吗？共享内存的原子操作是否锁定银行或整个内存？例如(没有互斥量)，有__shared__floatsmem[256];线程1运行atomicA

amp 43 br code blockquote c++c performance cuda atomic

11 12 131415 16 17