我正在修改RNNLM一个神经网络来研究语言模型。但是考虑到我的语料库的大小,它运行得非常慢。我试图优化矩阵*vector例程(这是一个占小数据集总时间63%的例程(我预计它在大数据集上会更糟))。现在我坚持使用内在函数。for(b=0;b此示例崩溃于:_mm256_store_ps(&(dest.ac[b*8+from+0]),t4);但是如果我改成_mm256_storeu_ps(&(dest.ac[b*8+from+0]),t4);(我想你是未对齐的)一切都按预期进行。我的问题是:为什么load可以工作(而如果数据未对齐,它不应该工作)而store却不能。(此外,两者都在同一个地址