我正在使用ARMNEON汇编程序优化4D(128位)矩阵vector乘法。如果我将矩阵和vector加载到NEON寄存器并对其进行转换,我将不会获得很大的性能提升,因为切换到NEON寄存器需要20个周期。此外,我为每个乘法重新加载矩阵,尽管它没有改变。有足够的寄存器空间来一次对更多vector执行转换。这正在提高性能。但是..我想知道如果我在汇编程序中对所有顶点(增加指针)进行循环,这个操作会有多快。但是我刚开始使用Neon汇编程序,但不知道该怎么做。有人可以帮助我吗?我想要实现的目标:加载矩阵和第一个vector存储循环计数“count”和..--循环开始--执行乘加(进行转换)将q