英特尔® ExtensionforTransformer是什么?英特尔® ExtensionforTransformers[1]是英特尔推出的一个创新工具包,可基于英特尔® 架构平台,尤其是第四代英特尔® 至强® 可扩展处理器(代号SapphireRapids[2],SPR)显著加速基于Transformer的大语言模型(LargeLanguageModel,LLM)。其主要特性包括:通过扩展HuggingFacetransformersAPI[3]和利用英特尔® NeuralCompressor[4],为用户提供无缝的模型压缩体验;提供采用低位量化内核(NeurIPS2023:在CPU上实现