jjzjj

c++ - 适用于 Windows 和 Linux 的 OpenCL 程序中的 GCN ISA 程序集

我需要为AMDGPU优化OpenCL程序。我想尝试在GCNISA汇编中重写一些核心OpenCL内核,但我必须同时支持Windows和Linux。我找到了ROCm平台,它看起来可以为Linux完成工作,但不支持Windows。是否有我可以用来完成此任务的工具链? 最佳答案 是的,RGA(RadeonGPUAnalyzer)正是您要找的。Version1.4该产品的一部分在AMD基于LLVM的Lightning编译器(用于ROCm平台的OpenCL编译器)之上增加了对OpenCL的支持。Version2.0添加了图形用户界面。RGA充当

c++ - AMD 的 NVML 对应物 (c++)

我想知道AMD有哪些库模仿nvidia的NVML拷贝。我想要的是在C++中获取温度、功耗等。最好的问候! 最佳答案 AMD版本称为ROCmSMILibrary.它目前正在开发中,可以在github上找到。不过,它具有大部分基本功能。 关于c++-AMD的NVML对应物(c++),我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/48254668/

c++ - 在 C++ 中将矩阵高效分解为方形子矩阵

我通过使用1D数据类型并将其包装到行和列中,在C++中实现了Matrix数据类型。现在,我希望有可能从此时开始创建正方形/分块子矩阵,并且我想在内存中进行。问题是我希望这些子矩阵中的一些可以转移到GPU内存并可以在那里并行处理它们。例如,这对矩阵乘法很有用。由于这些子矩阵在主内存中没有对齐,如果不创建单独的拷贝,将它们作为一个单元复制到设备内存看起来是不可能的?我想让这个直接的GPU子矩阵复制映射到CPU原始矩阵以用于更新和效率目的。我事先不知道确切的分区。有人知道我怎样才能实现它吗?提醒一下,矩阵需要按block划分,而不是按行划分,这在C/C++中相对容易。

c++ - 最佳 GPU 性能的理想位图大小?

我知道在处理显卡时,需要提供2的幂位图。1,2,4,8,16,32...我打算制作一个基于图block的项目,只有我需要知道向显卡提供巨大的位图是否有任何限制。使用小/大位图的优点/缺点是什么?我应该使用更合适的位图大小吗? 最佳答案 一般来说,在处理现代GPU时,数据量越大越好。你没有说你正在使用什么API(OpenGL、CUDA等),但你可以这样想:chunk_time=overhead_time+(num_of_elements/num_of_chunks)*per_element_timetotal_time=chunk_t

c++ - 从gpu特征描述符转换的opencv特征描述符的问题

我在使用openvc将GPU特征描述符矩阵转换为CPU特征描述符矩阵时遇到了一些问题,使用:voiddownloadDescriptors(constGpuMat&descriptorsGPU,vector&descriptors);如您所见,此方法将包含描述符的GpuMat转换为包含描述符的浮点vector。问题是,当我访问此vector的某些元素时,返回的值与0的预期间隔完全不同。至255.我制作了以下测试程序来比较提取时间和通过SURF_GPU获得的描述和SURF:clock_tstart;clock_tend;SURF_GPUsurfGPU;SURFsurf;Matimg1=i

c++ - 我有两个 GPU,我怎么能只让其中一个执行特定的 CUDA 任务呢?

刚接触CUDA,但有一些时间花在计算上,我家里有geforces,办公室有tesla(同代)。在家里,我在同一台计算机上安装了两个gpus,一个是GK110(计算能力3.5),另一个是GF110(计算能力2.0),我更喜欢使用GK110仅用于计算任务,GF110用于显示,除非我告诉它进行计算,有没有办法通过驱动程序设置来完成,或者我仍然需要重写我的一些代码?另外,如果我没理解错的话,如果GK110的显示端口没有连接,那么烦人的windows超时检测即使计算时间很长也不会尝试重置它?顺便说一句,我的CUDA代码是用compute_35和compute20编译的,因此代码可以在两个GPU上

c++ - 改进 CUDA 中的异步执行

我目前正在编写一个程序,使用CUDAAPI在GPU上执行大型模拟。为了加速性能,我尝试同时运行我的内核,然后再次将结果异步复制到主机内存中。代码大致如下所示:#defineNSTREAMS8#defineBLOCKDIMX16#defineBLOCKDIMY16voiddomainUpdate(float*domain_cpu,//pointertodomainonhostfloat*domain_gpu,//pointertodomainondeviceconstunsignedintdimX,constunsignedintdimY,constunsignedintdimZ){di

c++ - 在 C++Amp 中减少 GPU-CPU 数据传输

我在尝试使用C++Amp优化我的应用程序时遇到了以下问题:数据传输。对我来说,将数据从CPU复制到GPU没有问题(因为我可以在应用程序的初始状态下执行此操作)。更糟糕的是,我需要快速访问C++Amp内核计算的结果,因此GPU和CPU之间的瓶颈很痛苦。我读到Windows8.1下的性能提升,但是我使用的是Windows7,我不打算更改它。我阅读了有关暂存阵列的信息,但我不知道它们如何帮助解决我的问题。我需要向主机返回一个浮点值,这似乎是最耗时的操作。floatSubset::reduction_cascade(unsignedelement_count,concurrency::arra

一文读懂「四大主流计算芯片 CPU、GPU、ASIC、FPGA」特点和场景

纵观人类历史,从结绳计数、木制计数到巴比伦的粘土板上的刻痕,再到中国古代的算盘,社会生产力的提高与当时所采用的计算工具密切相关。计算工具能力越强,就能大幅缩短人类解决复杂问题的时间,社会生产力水平自然就会越高。CPUCPU,全称CentralProcessingUnit,即中央处理器。现代电子计算机的发明是基于1940年代诞生的冯·诺依曼架构,这个架构主要由运算器、控制器、存储器、输入设备、输出设备等五个主要部分组成。特点:CPU具有通用性和灵活性,能够执行各种任务,如操作系统管理、软件运行和数据处理等。它擅长串行计算,即按照指定顺序执行任务。应用:广泛应用于个人电脑、服务器、移动设备等各种计

NVDIA各型号GPU性能与参数列表: 3090,4090,A40,A5000,V100性能参数对比

NVIDIA作为世界领先的图形处理器制造商,一直以来都以其强大的性能和高度可定制化的产品而闻名。其中包括了3090,4090,A40,A5000和V100等型号。下面对其逐一解释:1.NVIDIAGeForceRTX3090:3090是NVIDIARTX30系列中的旗舰级显卡,它搭载了Ampere架构的核心,具备24GBGDDR6X显存,能够提供卓越的游戏性能和绝佳的图形渲染能力。它拥有10496个CUDA核心、384位记忆总线和最大送风量可以达到和低于20%的性能差距。(用户可根据自己的需求选择)2.NVIDIAGeForceRTX4090:4090是NVIDIARTX40系列的超高性能显卡