我正在执行一个简单的测试,比较主机(CPU正在执行访问)使用malloc()分配的数据和使用cudaHostAlloc()分配的数据的访问延迟。我注意到在JetsonTk1上访问使用cudaHostAlloc()分配的数据比访问使用malloc()分配的数据慢得多。独立GPU并非如此,似乎仅适用于TK1。经过一些调查,我发现用cudaHostAlloc()分配的数据被内存映射(mmap)到进程地址空间的/dev/nvmap区域。对于映射到进程堆上的普通malloc数据,情况并非如此。我知道此映射可能是允许GPU访问数据所必需的,因为cudaHostAlloc的数据必须从主机和设备可见。