摘要:我们提出了一种与领域和用户偏好无关的方法来检测以人为中心的视频中的精彩片段摘录。我们的方法适用于视频中多种可观察到的以人为中心的模态的基于图形的表示,例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。我们根据帧的代表性训练网络,将不同模态的基于活动和交互的潜在结构表示映射到每帧的突出得分。我们使用这些分数来计算要突出显示哪些帧并缝合连续帧以生成摘录。我们在大规模AVA-Kinetics动作数据集上训练我们的网络,并在四个基准视频集锦数据集上对其进行评估:DSH、TVSum、PHD2和SumMe。我们观察到,与这些数据集中最先进的方法相比,匹配人工注