SOTA

YOLOv9改进 | 一文带你了解全新的SOTA模型YOLOv9（论文阅读笔记，效果完爆YOLOv8）

官方论文地址：官方论文地址点击即可跳转官方代码地址：官方代码地址点击即可跳转图1.在MSCOCO数据集上实时对象检测器的比较。基于GELAN和PGI的对象检测方法在对象检测性能方面超越了所有以前的从头开始训练的方法。在准确性方面，新方法超越了使用大型数据集预训练的RTDETR，同时在参数利用率方面也超过了基于深度卷积的设计YOLOMS。一、Introduction/引言YOLOv9发布时间为2024年2月21日，其基于深度学习的模型在各个领域，如计算机视觉、语言处理和语音识别等方面，已经展现出比过去的人工智能系统更优异的性能。近年来，深度学习领域的研究主要集中在如何开发更强大的系统架构和

YOLOv 一文 xff0c xff xff0 人工智能深度学习 YOLO python 目标检测论文阅读 YOLOv9

逆天了！UniVision：BEV检测和Occ联合统一框架，双任务SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&个人理解最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处，但在特征表示、数据格式和目标方面仍存在差距，这对统一高效的3D感知框架设计提出了挑战。特别是BEV下的检测任务和Occupancy任务，想做好联合训练，还是很难的，不稳定和效果不可控让很多应用头大。UniVision是一个简单高效的框架，它统一了以视觉为中心的3D感知中的两个主要任务，即占用预测和目标检测。核心点是一个用于互补2D-3Dfeaturetransformation的显式-隐式视图变换模块，UniVision提

UniVision 框架特征 js_darkmode 任务人工智能智能汽车 3D 自动驾驶

AI之Paper：Papers With Code/Browse State-of-the-Art免费资源网站(人工智能领域SOTA算法原始论文+代码+数据集)的简介、使用方法之详细攻略

AI之Paper：PapersWithCode/BrowseState-of-the-Art免费资源网站(人工智能领域SOTA算法原始论文+代码+数据集)的简介、使用方法之详细攻略目录PapersWithCode/BrowseState-of-the-Art网站的简介1、使命PapersWithCode/BrowseState-of-the-Art网站的使用方法1、选择自然语言处理领域→语言模型→寻找SOTA模型PapersWithCode/BrowseState-of-the-Art网站的简介PapersWithCode是一个免费的机器学习资源网站，由MetaAI团队开发和维护。主要是浏览和

人工智能 State-of-the-Art margin-left text-align style 机器学习大语言模型 LLMs

字节提出非对称图像重采样模型，JPEG、WebP上抗压缩性能领先SOTA

图像重采样(ImageRescaling，LR)任务联合优化图像下采样和上采样操作，通过对图像分辨率的下降和还原，可以用于节省存储空间或传输带宽。在实际应用中，例如图集服务的多档位分发，下采样得到的低分辨率图像往往会进行有损压缩，而有损压缩往往导致现有算法的性能大幅下降。近期，字节跳动-火山引擎多媒体实验室首次尝试了有损压缩下的图像重采样性能优化，设计了一种非对称可逆重采样框架，基于该框架下的两点观察，进一步提出了抗压缩图像重采样模型SAIN。该研究将一组可逆网络模块解耦成重采样和压缩模拟两个部分，使用混合高斯分布建模分辨率下降和压缩失真造成的联合信息损失，结合可微的JPEG算子进行端到端训练

压缩性领先 style span text-align 人工智能新闻框架模型

Zero-shot RIS SOTA：Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 论文阅读笔记

Zero-shotRISSOTA：TextAugmentedSpatial-awareZero-shotReferringImageSegmentation论文阅读笔记一、Abstract二、引言三、相关工作3.1Zero-shot分割3.2ReferringImageSegmentation3.3ImageCaptioning四、方法4.1总体框架4.2MaskProposal网络FreeSOLOvs.SAM4.3文本增强的视觉-文本匹配得分V-scoreP-scoreN-scoreThetext-augmentedvisual-textmatchingscore4.4空间校正器方向描述鉴定

Zero-shot Zero span class style 论文阅读笔记 transformer 图像处理

挖掘BEV潜力的边界！DA-BEV：无监督BEV SOTA新方案！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解今天和大家探讨3D视觉感知领域中的一个特定问题：针对纯视觉的鸟瞰图（BEV）的无监督领DomainAdaptation（UnsupervisedDomainAdaptation,UDA）。3D视觉感知在移动机器人、自动驾驶、虚拟现实等领域起着重要的作用，而近年来，纯视觉的BEV模型由于其在全面的3D理解、丰富的语义信息、高计算效率和低部署成本方面的优势而受到越来越多的关注。研究背景上，尽管单目和基于激光雷达的3D感知取得了显著的进步，但当在源域（例如，训练数据的环境）训练的纯视觉BEV模型应用到目标域（例如，不同于训练数

BEV 边界特征视图人工智能新闻 3D 视觉

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

最佳开源模型刷新多项SOTA，首次超越MixtralInstruct！「开源版GPT-4」家族迎来大爆发

开源迎来 section 人工智能新闻 AI 数据

几何纹理重建新SOTA！浙大提出SIFU：单图即可重建高质量3D人体模型

在AR、VR、3D打印、场景搭建以及电影制作等多个领域中，高质量的穿着衣服的人体3D模型非常重要。传统的方法创建这些模型不仅需要大量时间，还需要能够捕捉多视角照片的专业设备，此外还依赖于技术熟练的专业人员。与此相反，在日常生活中，我们最常见的是通过手机相机拍摄的或在各种网页上找到的人像照片。因此，一种能从单张图像准确重建3D人体模型的方法可以显著降低成本，并简化独立创作的过程。以往方法（左）与本文方法技术路线比较（右）以往的深度学习模型用于3D人体重建，往往需要经过三个步骤：从图像中提取2D特征，将2D特征转到3D空间，以及3D特征用于人体重建。然而这些方法在2D特征转换到3D空间的阶段，往往

重建高质模型 style 人工智能 SOTA 3D 方法

扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略

Text-to-image（T2I）扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题：扩散模型是否可以用于解决视觉感知任务？近期，来自字节跳动和复旦大学的技术团队提出了一种简单而有效的方案：利用扩散模型处理视觉感知任务。论文地址：https://arxiv.org/abs/2312.14733开源项目：https://github.com/fudan-zvg/meta-prompts团队的关键洞察是引入可学习的元提示（metaprompts）到预训练的扩散模型中，以提取适合特定感知任务的特征。技术介绍团队将text-t

复旦理解力 span text-align style 人工智能新闻模型训练

还在搞NeRF？实时渲染生成逼真自动驾驶数据！Street Gaussians：超越所有SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。StreetGaussians的动机在自动驾驶领域，动态街景重建有着重要的应用场景，比如数据生成、自动标注、闭环仿真等。由于对重建质量和效率有较高的要求，这方面的技术仍旧临着巨大的挑战。对于单目视频建模动态城市街景的问题，近期方法主要是基于NeRF并结合跟踪车辆的姿态，从而重建出高真实感的视图。然而训练和渲染速度慢、对跟踪车辆姿态精度需求高，使其在很难真正被应用起来。我们提出了StreetGaussians，这是一种新的显式场景表示方法，可以解决所有这些限制。开源链接：StreetGaussiansforModelingDynamicUrban

逼真渲染场景 data-id data 人工智能智能汽车自动驾驶视图

123 4 5