我正在使用NUMA机器(SGIUV1000)同时运行大量数值模拟,每个模拟都是一个使用4核的OpenMP作业。然而,运行超过100个这样的作业会导致性能显着下降。我们关于为什么会发生这种情况的理论是,软件所需的共享库只加载到机器的全局内存中一次,然后系统遇到通信瓶颈,因为所有进程都在单个节点上访问内存。这是一款旧软件,修改范围有限,甚至没有修改范围,静态make选项不会静态链接它需要的所有库。据我所知,最方便的解决方案是以某种方式强制系统在每个进程或节点(我在每个节点上运行3个进程)上加载所需共享库的新副本,但我没有能够找出如何做到这一点。谁能告诉我该怎么做,或者对如何解决这个问题有任