主要学习该方法在VQA中的用法。摘要自顶向下和自底向上结合的注意力机制,使注意力能够在物体和其他显著图像区域的水平上进行计算。自底向上的机制(基于FasterR-CNN)提出图像区域,每个区域都有一个相关的特征向量,而自顶向下的机制确定特征权重。1、介绍注意力机制上图是:左边:注意力模型在CNN特征上运行,这些特征对应于大小相等的图像区域的统一网格。右边:模型在物体和其他显著图像区域的水平上计算注意力。将非视觉或特定任务环境驱动的注意力机制称为“自顶向下”,将纯视觉前馈注意力机制称为“自底向上”。自底向上的机制提出了一组显著图像区域,每个区域由一个汇集的卷积特征向量表示(FasterR-CNN