jjzjj

VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!...

关注公众号,发现CV技术之美本文分享论文『VideoMAE:MaskedAutoencodersareData-EfficientLearnersforSelf-SupervisedVideoPre-Training』,由南大王利民团队提出第一个VideoMAE框架,使用超高maskingratio(90%-95%),性能SOTA,代码已开源!详细信息如下:论文链接:https://arxiv.org/abs/2203.12602项目链接:https://github.com/MCG-NJU/VideoMAE    01     摘要为了在相对较小的数据集上实现卓越的性能,通常需要在超大规模数据

实时加SOTA一飞冲天!FastOcc:推理更快、部署友好Occ算法来啦!

本文经自动驾驶之心公众号授权转载,转载请联系出处。写在前面&笔者的个人理解在自动驾驶系统当中,感知任务是整个自驾系统中至关重要的组成部分。感知任务的主要目标是使自动驾驶车辆能够理解和感知周围的环境元素,如行驶在路上的车辆、路旁的行人、行驶过程中遇到的障碍物、路上的交通标志等,从而帮助下游模块做出正确合理的决策和行为。在一辆具备自动驾驶功能的车辆中,通常会配备不同类型的信息采集传感器,如环视相机传感器、激光雷达传感器以及毫米波雷达传感器等等,从而确保自动驾驶车辆能够准确感知和理解周围环境要素,使自动驾驶车辆在自主行驶的过程中能够做出正确的决断。目前,基于纯图像的视觉感知方法相比于基于激光雷达的感

OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)

本文经自动驾驶之心公众号授权转载,转载请联系出处。对3D场景的全面理解在自动驾驶中至关重要,最近的3D语义占用预测模型已经成功地解决了描述具有不同形状和类别的真实世界物体的挑战。然而,现有的3D占用预测方法在很大程度上依赖于全景相机图像,这使得它们容易受到照明和天气条件变化的影响。通过集成激光雷达和环视雷达等附加传感器的功能,本文的框架提高了占用预测的准确性和稳健性,从而在nuScenes基准上获得了顶级性能。此外,在nuScene数据集上进行的广泛实验,包括具有挑战性的夜间和雨天场景,证实了我们的传感器融合策略在各种感知范围内的卓越性能。论文链接:https://arxiv.org/pdf/

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品

一、论文本文介绍被计算机视觉顶级国际会议ICCV2023接收的论文"TransFace:CalibratingTransformerTrainingforFaceRecognitionfromaData-CentricPerspective"论文链接:https://arxiv.org/abs/2308.10133开源代码:https://anonymous.4open.science/r/TransFace-294C二、背景1.VisionTransformer(ViT)VisionTransformer(ViT)已经在计算机视觉社区多项视觉任务上展现出其强大的表征能力和拟合能力。相比于卷积

【RT-DETR有效改进】结合SOTA思想利用双主干网络改进RT-DETR(全网独家创新,重磅更新)

一、本文介绍本文给大家带来的改进机制是结合目前SOTAYOLOv9的思想利用双主干网络来改进RT-DETR(本专栏目前发布以来改进最大的内容,同时本文内容为我个人一手整理全网独家首发|就连V9官方不支持的模型宽度和深度修改我都均已提供,本文内容支持RT-DETR全系列模型均可使用),本文的内容超级适合想要发表论文的读者创新性不够,工作量不够的,本文的改进在感官上给人就有一种工作量多和创新点十足的感觉,同时本专栏内容以后均采用NEU-DET数据集进行对比实验模型(避免大家质疑数据集质量的问题),本文内容为独家整理!。  欢迎大家订阅我的专栏一起学习RT-DETR! 专栏目录: RT-DETR改进

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

每个人想要的大模型,是真·智能的那种......这不,谷歌团队就做出来了一个强大的「读屏」AI。研究人员将其称为ScreenAI,是一种理解用户界面和信息图表的全新视觉语言模型。论文地址:https://arxiv.org/pdf/2402.04615.pdfScreenAI的核心是一种新的屏幕截图文本表示方法,可以识别UI元素的类型和位置。值得一提的是,研究人员使用谷歌语言模型PaLM2-S生成了合成训练数据,以训练模型回答关屏幕信息、屏幕导航和屏幕内容摘要的问题。举个栗子,比如打开一音乐APP页面,可以询问「有几首歌时长少于30秒」?ScreenAI便给出了简单的答案:1。再比如命令Scr

YOLOv8改进 | 独家创新篇 | 结合SOTA思想利用双主干网络改进YOLOv8(全网独家创新,最重磅的更新)

一、本文介绍本文给大家带来的改进机制是结合目前SOTAYOLOv9的思想利用双主干网络来改进YOLOv8(本专栏目前发布以来改进最大的内容,同时本文内容为我个人一手整理全网独家首发|就连V9官方不支持的模型宽度和深度修改我都均已提供,本文内容支持YOLOv8全系列模型从n到x均可使用),本文的内容超级适合想要发表论文的读者创新性不够,工作量不够的,本文的改进在感官上给人就有一种工作量多和创新点十足的感觉,同时本专栏内容以后均采用NEU-DET数据集进行对比实验模型(避免大家质疑数据集质量的问题),本文内容为独家整理!。  欢迎大家订阅我的专栏一起学习YOLO! 专栏目录:

VAD v2端到端SOTA | 远超DriveMLM等方法(地平线)

从大规模驾驶演示中学习类似人类的驾驶策略是很有前途的,但规划的不确定性和非确定性本质使得这一任务充满挑战。在这项工作中,为了应对不确定性问题,作者提出了VADv2,一个基于概率规划的端到端驾驶模型。VADv2以流方式输入多视角图像序列,将传感器数据转换为环境标记嵌入,输出动作的概率分布,并从中采样一个动作来控制车辆。仅使用摄像头传感器,VADv2在CARLATown05基准测试中实现了最先进的闭环性能,显著优于所有现有方法。它能够在完全端到端的方式下稳定运行,甚至不需要基于规则的封装。闭环演示可以在https://hgao-cv.github.io/VADv2中找到。1Introduction

YOLO不死!YOLOv9出炉:性能速度SOTA~

本文经自动驾驶之心公众号授权转载,转载请联系出处。如今的深度学习方法专注于设计最适合的目标函数,以使模型的预测结果与实际情况最接近。同时,必须设计一个合适的架构,以便为预测获取足够的信息。现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,大量信息将会丢失。本文将深入探讨数据通过深度网络传输时的重要问题,即信息瓶颈和可逆函数。基于此提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多目标所需的各种变化。PGI可以为目标任务提供完整的输入信息,以计算目标函数,从而获得可靠的梯度信息以更新网络权重。此外设计了一种新的轻量级网络架构——基于梯度路径规划的广义高效层聚合网络(GEL

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

继2023年1月 YOLOv8 正式发布一年多以后,YOLOv9终于来了!我们知道,YOLO是一种基于图像全局信息进行预测的目标检测系统。自2015年JosephRedmon、AliFarhadi等人提出初代模型以来,领域内的研究者们已经对YOLO进行了多次更新迭代,模型性能越来越强大。此次,YOLOv9由中国台湾AcademiaSinica、台北科技大学等机构联合开发,相关的论文《LearningWhatYouWanttoLearnUsingProgrammableGradientInformation》已经放出。论文地址:https://arxiv.org/pdf/2402.13616.p