我正在尝试在T4机器上快速创建大量sha256哈希。T4有一条“sha256”指令,允许我在一个操作码中计算哈希值。我创建了一个内联汇编模板来调用sha256操作码:在我的C++代码中:extern"C"{voidProcessChunk(constchar*buf,uint32_t*state);}pchunk.il:.inlineProcessChunk,8.volatile/*copystate*/ldd[%o1],%f0/*load8bytes*/ldd[%o1+8],%f2/*load8bytes*/ldd[%o1+16],%f4/*load8bytes*/ldd[%o1+2