华为Atlas200DK开发从零开始3.目标检测模型CANN部署——以YOLOX、YOLOv5和Nanodet为例（1）CANN接口调用

RuiH.AI 2023-04-05 原文

前言

平时喜欢玩开发板，之前在jetson nano，RK3399pro，英特尔神经计算棒上实现了各种深度学习算法的迁移部署，比较熟悉tensorrt，rknn，openvino各种花里胡哨的推理引擎

最近又接触了华为Atlas200DK开发板，体验了一把达芬奇架构的昇腾310NPU，实力的确不可小觑，在几天内的学习和努力下终于熟悉了与NPU配套的CANN计算框架（我比较喜欢叫推理引擎），因此分享一下使用CANN的pyACL接口部署YOLOX、YOLOv5和Nanodet的方法。

YOLOX是YOLO目标检测系列里的最新方法，代码风格友好，并且根据我上一篇博客的结果其轻量模型推理效率很高，因此本文重点以YOLOX为例。

深度学习模型在AI芯片上部署的一般流程

首先介绍一下在AI芯片上的部署流程，无论是英伟达的tensorrt，瑞芯微的rknn，还是openvino、CANN等推理引擎，虽然各引擎的API不同，但基本流程都差不多，如下图所示：

从深度学习训练框架（如pytorch，tf，paddle等）训练得到的模型，通过各推理引擎附带的模型转换器（有的是引擎自身的API转换比如RKNN，有的配置了专门的转换工具tools比如CANN的ATC），转换成对应引擎的的离线模型。在推理时，通过引擎API将模型和预处理后的图片加载到内存中，然后载入AI芯片中执行推理。

不过不同的推理引擎的推理上仍然存在一些细节差异。

CANN模型部署流程

对于CANN而言，模型部署和推理过程相对复杂一些。这里引用一下官网的流程，对于常用的目标检测模型，只需要看右边的模型推理就OK了：

主要就是ACL环境（运行资源）的初始化、模型转换和加载、图像预处理、模型推理、后处理、模型卸载和ACL环境的去初始化。

乍一看，推理前进行环境初始化、结束后去初始化的操作比较繁琐，但这种规范的流程设计其实是很有必要的：
举个反例，openvino没有这些初始化之类的步骤，于是我在英特尔的NCS2 VPU上经常出现跑完程序后需要等待很长时间才能进行下一次运行的问题，原因就是没有把上一次加载的内存数据卸载掉:)

CANN ACL接口调用流程(python)

ACL(Ascend Computing Language)提供了CANN的推理接口，可用C++(AscendCL)和python(pyACL)进行开发，我比较喜欢用pyACL。

一般的接口调用流程如下：

步骤1.ACL环境初始化和资源申请

import acl
# pyACL初始化
ret = acl.init()
# 指定运算的Device
self.device_id = 0
ret = acl.rt.set_device(self.device_id)
# 显式创建一个Context，用于管理Stream对象
self.context, ret = acl.rt.create_context(self.device_id)

步骤2.模型加载

与pytorch等框架下的模型加载不同，CANN在加载模型时，除了要把模型文件加载到内存中，还要通过模型文件把模型的输入输出类型、个数、内存等设置好（openvino也有类似操作）。

'''
加载模型文件
'''
self.model_path = './model/resnet50.om'
# 加载离线模型文件，返回标识模型的ID。
self.model_id, ret = acl.mdl.load_from_file(self.model_path)
# 根据加载成功的模型的ID，获取该模型的描述信息。
self.model_desc = acl.mdl.create_desc()
ret = acl.mdl.get_desc(self.model_desc, self.model_id)
'''
设置模型的输入
'''
ACL_MEM_MALLOC_HUGE_FIRST = 0
# 创建aclmdlDataset类型的数据，描述模型推理的输入
self.load_input_dataset = acl.mdl.create_dataset()
# 获取模型输入的数量
input_size = acl.mdl.get_num_inputs(self.model_desc)
self.input_data = []
# 循环为每个输入申请内存，并将每个输入添加到aclmdlDataset类型的数据中
for i in range(input_size):
    buffer_size = acl.mdl.get_input_size_by_index(self.model_desc, i)
    # 申请输入内存
    buffer, ret = acl.rt.malloc(buffer_size, ACL_MEM_MALLOC_HUGE_FIRST)
    data = acl.create_data_buffer(buffer, buffer_size)
    _, ret = acl.mdl.add_dataset_buffer(self.load_input_dataset, data)
    self.input_data.append({"buffer": buffer, "size": buffer_size})
'''
设置模型的输出
'''
# 创建aclmdlDataset类型的数据，描述模型推理的输出
self.load_output_dataset = acl.mdl.create_dataset()
# 获取模型输出的数量
output_size = acl.mdl.get_num_outputs(self.model_desc)
self.output_data = []
# 循环为每个输出申请内存，并将每个输出添加到aclmdlDataset类型的数据中
for i in range(output_size):
    buffer_size = acl.mdl.get_input_size_by_index(self.model_desc, i)
    # 申请输出内存
    buffer, ret = acl.rt.malloc(buffer_size, ACL_MEM_MALLOC_HUGE_FIRST)
    data = acl.create_data_buffer(buffer, buffer_size)
    _, ret = acl.mdl.add_dataset_buffer(self.load_output_dataset, data)
    self.output_data.append({"buffer": buffer, "size": buffer_size})

这一段容易看晕，因为获取模型输入输出数据信息时都需要先使用API初始化这个数据类型，然后再通过另一个API获得信息，类似于C++中的先声明再使用。

步骤3.准备输入数据，预处理，推理，后处理

ACL_MEMCPY_DEVICE_TO_DEVICE = 3
NPY_BYTE = 1
images_list = ["./data/dog1_1024_683.jpg", "./data/dog2_1024_683.jpg"]

for image in images_list:
    # 1.自定义函数transfer_pic，对图片进行缩放、剪裁等预处理操作
    img = transfer_pic(image)
    # 2.准备模型推理的输入数据
    np_ptr = acl.util.numpy_to_ptr(img)
    # 将图片数据拷贝到输入数据内存中
    ret = acl.rt.memcpy(self.input_data[0]["buffer"], self.input_data[0]["size"], np_ptr,
                        self.input_data[0]["size"], ACL_MEMCPY_DEVICE_TO_DEVICE)

    # 3.执行模型推理
    # self.model_id表示模型ID，在模型加载成功后，会返回标识模型的ID
    ret = acl.mdl.execute(self.model_id, self.load_input_dataset, self.load_output_dataset)
        
    # 4.处理模型推理的输出数据，输出top5置信度的类别编号
    inference_result = []
    for i, item in enumerate(self.output_data):
        buffer_d, ret = acl.rt.malloc(self.output_data[i]["size"]， ACL_MEM_MALLOC_HUGE_FIRST)
        ret = acl.rt.memcpy(buffer_d, self.output_data[i]["size"], self.output_data[i]["buffer"],
                            self.output_data[i]["size"], ACL_MEMCPY_DEVICE_TO_DEVICE)
        data = acl.util.ptr_to_numpy(buffer_d, (self.output_data[i]["size"],), NPY_BYTE)
        inference_result.append(data)
    tuple_st = struct.unpack("1000f", bytearray(inference_result[0]))
    vals = np.array(tuple_st).flatten()
    top_k = vals.argsort()[-1:-6:-1]
    print("======== top5 inference results: =============")
    for j in top_k:
        print("[%d]: %f" % (j, vals[j]))

步骤4.卸载模型

# 释放输入资源，包括数据结构和内存
while self.input_data:
    item = self.input_data.pop()
    ret = acl.rt.free(item["buffer"])
input_number = acl.mdl.get_dataset_num_buffers(self.load_input_dataset)
for i in range(input_number):
    data_buf = acl.mdl.get_dataset_buffer(self.load_input_dataset, i)
    if data_buf:
        ret = acl.destroy_data_buffer(data_buf)
ret = acl.mdl.destroy_dataset(self.load_input_dataset)

# 释放输出资源，包括数据结构和内存
while self.output_data:
    item = self.output_data.pop()
    ret = acl.rt.free(item["buffer"])
output_number = acl.mdl.get_dataset_num_buffers(self.load_output_dataset)
for i in range(output_number):
    data_buf = acl.mdl.get_dataset_buffer(self.load_output_dataset, i)
    if data_buf:
        ret = acl.destroy_data_buffer(data_buf)
ret = acl.mdl.destroy_dataset(self.load_output_dataset)

# 卸载模型
ret = acl.mdl.unload(self.model_id)

# 释放模型描述信息
if self.model_desc:
    ret = acl.mdl.destroy_desc(self.model_desc)
    self.model_desc = None

步骤5.资源释放，acl去初始化

# 释放Context
if self.context:
    ret = acl.rt.destroy_context(self.context)
    self.context = None

# 释放Device
ret = acl.rt.reset_device(self.device_id)
# pyACL去初始化
ret = acl.finalize()

以上就是pyACL接口的基本调用流程

用于简化部署的Atlas Utils

由于ACL调用比较繁琐，Ascend社区根据Atlas200DK硬件将ACL api进一步的封装成了Utils的形式，在Atlas Utils官方仓库中的cplusplus/common和python/common子文件夹中，python的utils主要包含了以下几个文件：

acl_dvpp.py   # 用于预处理
acl_image.py   # 用于读取图片数据 
acl_model.py     # 用于模型加载和推理
acl_resource.py    # 用于acl初始化和资源申请
acl_logging.py    # 消息提示
constants.py     # 一些常用flags
utils.py      # 一些常用工具

这些文件内部已经把繁琐的初始化、资源申请、模型加载、模型输入输出准备、推理后的资源释放进行了内部封装，因此使用atlas_utils来部署模型可以专注于算法实现。

下面我将简要演示如何用atlas_utils部署模型，使用到的源码在这yolox_for_cann_atlas200dk，其中atlas_utils文件夹来自上面的官方仓库。

1.导入相关模块、通过atlas_utils.acl_resource初始化pyACL

首先，把需要用到的python模块和atlas_utils导入，然后初始化pyACL环境：

'''
导入常用包、图像处理包
'''
import sys
import os
import functools
import time

import numpy as np
import cv2
from PIL import Image, ImageDraw, ImageFont, ImageOps

path = os.path.dirname(os.path.abspath(__file__))
sys.path.append(os.path.join("../../"))

currentPath = os.path.join(path, "..")
OUTPUT_DIR = os.path.join(currentPath, 'outputs')
MODEL_PATH = os.path.join(currentPath, "model/yolox_s.om")
'''
导入pyACL和atlas_utils
'''
import acl
from atlas_utils.acl_resource import AclResource
from atlas_utils.acl_model import Model
from atlas_utils.acl_image import AclImage
from atlas_utils.acl_dvpp import Dvpp
import atlas_utils.constants as const
import atlas_utils.utils as utils

'''
pyACL初始化（调整了一下代码的顺序，方便梳理步骤）
'''
acl_resource = AclResource()
acl_resource.init()

2.通过atlas_utils.acl_model加载CANN模型

acl_model中的Model类已经将acl模型加载与模型输入输出准备封装好了，因此只需要加载模型路径即可：

# 省略了YOLOX类的定义代码，细节可参考我的git repo源码
self.model = Model(self.model_path)

3.（可选）通过atlas_utils.acl_dvpp、atlas_utils.acl_image加载图像、进行预处理

atlas_utils也将acl的dvpp模块进行了封装，可用来resize图像，不过我还是采用opencv、PIL和numpy来做预处理，因此该部分可以参考官方samples的做法，这里不做赘述。

4.模型推理

# image是已经通过cv2.imread读取的图片
# pre_process是预处理函数，一般包括resize、crop、padding、normalize、expand_dims
img = self.pre_process(image)
# 通过acl_model.Model.execute()方法进行CANN模型推理
outs = self.model.execute([inp, ])
# post_process后处理函数，我习惯用numpy实现
dets = self.post_process(prediction)

在这里需要注意两个点，第一就是acl_model.Model.execute()函数输入必须是list，比如[img, ]，不然会报错（原因是CANN模型需要通过list来对应每个输入节点）

5.推理完成

在ACL中，当推理完成后需要将模型卸载、运行内存、上下文等资源释放、acl去初始化。

不过在atlas_utils的封装下，这些步骤都将在python运行结束时自动执行，如果你有兴趣的话可以参考atlas_utils中的文件，它将model、acl等都封装成为了类，并通过__del__()函数使得类的对象自动销毁、释放资源。

总结

本次blog记录了通过两种pyACL调用CANN接口实现模型推理的方法，一是直接采用华为CANN的pyACL，二是通过华为官方进一步封装的atlas_utils接口。

下一次blog我将给出YOLOX在Atlas200DK上使用CANN部署的具体实现步骤。

有关华为Atlas200DK开发从零开始3.目标检测模型CANN部署——以YOLOX、YOLOv5和Nanodet为例（1）CANN接口调用的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
使用 ACL 调用 upload_file 时出现 Ruby S3 "Access Denied"错误 - 2
我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常，除了该文件不是公开可用的，而且我无法获得它的公共(public)URL。但是当我登录到S3时，我可以正常查看我的文件。为了使其公开可用，我将最后一行更改为obj.upload_file(file
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案