cudaHostAlloc

c++ - 没有特殊标志的 cudaMallocHost() 和 cudaHostAlloc() 之间有什么区别吗？

在CUDA中，我想知道cudaMallocHost()之间的区别和cudaHostAlloc().它们在API引用中的各自摘要说:cudaMallocHost():“在主机上分配页面锁定内存。”cudaHostAlloc():“在主机上分配页面锁定内存。”而且进一步的描述似乎只是可以为cudaHostAlloc()指定的附加标志。前者只是为了向后兼容而保留，还是它们之间存在实际差异？PS-让我们假设CUDA6.5及更高版本。最佳答案据我所知，当默认标志用于cudaHostAlloc并且调用在UVA平台上运行时，它们是相同的。当引

linux - 在 Tegra TK1 上使用 malloc() 与 cudaHostAlloc() 分配的数据的 CPU 内存访问延迟

我正在执行一个简单的测试，比较主机(CPU正在执行访问)使用malloc()分配的数据和使用cudaHostAlloc()分配的数据的访问延迟。我注意到在JetsonTk1上访问使用cudaHostAlloc()分配的数据比访问使用malloc()分配的数据慢得多。独立GPU并非如此，似乎仅适用于TK1。经过一些调查，我发现用cudaHostAlloc()分配的数据被内存映射(mmap)到进程地址空间的/dev/nvmap区域。对于映射到进程堆上的普通malloc数据，情况并非如此。我知道此映射可能是允许GPU访问数据所必需的，因为cudaHostAlloc的数据必须从主机和设备可见。