Dissecting

DissectingDeepMetricLearningLossesforImage-TextRetrieval剖析图像文本检索中的深度度量学习损失2022.10视觉语义嵌入（VSE）是图像-文本检索中的一种流行的应用方法，它通过学习图像和语言模式之间的联合嵌入空间来保留语义的相似性。三元组损失与硬负值的挖掘已经成为大多数VSE方法的事实目标。图像领域深度度量学习（DML）产生了新的损失函数，超越了三元损失。尽管在设计基于梯度运动的损失方面做了一些尝试，但大多数DML损失是在嵌入空间中根据经验定义的。本文提出了一个新的基于梯度的目标分析框架，即GOAL，以系统地分析现有DML函数中梯度的组合和