jjzjj

生成式人工智能(AIGC)综述:ChatGPT从GPT-4到GPT-5可以一统AIGC?

原文题目:《ACompleteSurveyonGenerativeAI(AIGC):IsChatGPTfromGPT-4toGPT-5AllYouNeed?》文章链接:https://arxiv.org/abs/2303.11717https://arxiv.org/abs/2303.11717引言:随着ChatGPT的火热传播,生成式AI(AIGC,即AI生成的内容)因其分析和创造文本、图像等能力而在各地引起了轰动。在如此强烈的媒体关注下,我们几乎不可能错过从某个角度欣赏AIGC的机会。 “一个具有未来科幻感的机器人坐着,手握画笔正在创作一幅五颜六色的图画“由dalle2创作在AI从纯分析转

大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景

随着Sora的爆火,人们看到了AI视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移」或者替换视频中的物体,但关于更改视频中对象的「动作」的尝试还很少。 UniEdit视频编辑结果(动作编辑、风格迁移、背景替换、刚性/非刚性物体替换)本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架UniEdit,不仅涵盖了风格迁移、背景替换、刚性/非刚性物体替换等传统外观编辑场景,更可以有效地编辑视频中对

【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?

目录一、像素级OCR统一模型:UPOCR1.1、为什么提出UPOCR?1.2、UPOCR是什么?1.2.1、UnifiedParadigm统一范式1.2.2、UnifiedArchitecture统一架构1.2.3、UnifiedTrainingStrategy统一训练策略1.3、UPOCR效果如何?二、OCR大一统模型前沿研究速览2.1、Donut:无需OCR的用于文档理解的Transformer模型2.2、NouGAT:**实现文档图像到文档序列输出**2.3、SPTSv3:基于SPTS的OCR大一统模型三、大模型时代下的智能文档处理应用3.1、LLM与文档识别分析应用3.2、智能文档处理

迈向分割的大一统!OMG-Seg:一个模型搞定所有分割任务

本文经自动驾驶之心公众号授权转载,转载请联系出处。写在前面&笔者个人思考图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一;大模型以及多模态的发展又带来了文本和图像统一,使得跨模态端到端成为可能;追求更高级、更全面任务似乎成了CV/NLP领域的共识。听起来很玄乎,对于本文的统一所有分割来说,做法也很好理解,本质上就是在Mask2former的基础上增加了SAM的提示来支持prompt驱动以及交互式分割,同时增加CLIPencoder来支持开放域,给query加ID使其同时支持图像和视频的分割;PS:不得不说,Mask2former还是一个很强的基线,当前SOTA的大一

大一统的监控探针采集器 cprobe

需求背景监控数据采集领域,比如Prometheus生态有非常多的Exporter,虽然生态繁荣,但是无法达到开箱即用的大一统体验,Exporter体系的核心问题有:良莠不齐:有的Exporter写的非常棒,有的则并不完善,有些监控类别甚至有多个Exporter,选择困难写法各异:Exporter所用的日志库、配置文件管理方式、命令行传参方式各异,体验不一倚重边车模式:有些Exporter和采集目标之间是一对一的关系,有几个采集目标就需要部署几个Exporter,在Kubernetes环境下相对容易管理,在物理机虚拟机环境下管理起来就比较复杂了,而且多个Exporter还会带来资源成本的提升配置

大一统的监控探针采集器 cprobe

需求背景监控数据采集领域,比如Prometheus生态有非常多的Exporter,虽然生态繁荣,但是无法达到开箱即用的大一统体验,Exporter体系的核心问题有:良莠不齐:有的Exporter写的非常棒,有的则并不完善,有些监控类别甚至有多个Exporter,选择困难写法各异:Exporter所用的日志库、配置文件管理方式、命令行传参方式各异,体验不一倚重边车模式:有些Exporter和采集目标之间是一对一的关系,有几个采集目标就需要部署几个Exporter,在Kubernetes环境下相对容易管理,在物理机虚拟机环境下管理起来就比较复杂了,而且多个Exporter还会带来资源成本的提升配置

大一统模型 Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记

UniversalInstancePerceptionasObjectDiscoveryandRetrieval论文阅读笔记一、Abstract二、引言三、相关工作实例感知通过类别名进行检索通过语言表达式的检索通过指代标注的检索统一的视觉模型UnifiedLearningParadigmsUnifiedModelArchitectures四、方法4.1Prompt生成4.2图像-Prompt特征融合4.3目标发现和检索4.4训练和推理训练推理五、实验5.1实施细节5.2在10个任务上的评估目标检测和实例分割REC和RESSOTVOSMOTMOTSVISR-VOS5.3消融和其它分析六、结论写在

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

在开源了「分割一切」的SAM模型后,Meta在「视觉基础模型」的路上越走越远。这次,他们开源的是一组名叫DINOv2的模型。这些模型能产生高性能的视觉表征,无需微调就能用于分类、分割、图像检索、深度估计等下游任务。这组模型具有如下特征:使用自监督的方式进行训练,而不需要大量的标记数据;可以用作几乎所有CV任务的骨干,不需要微调,如图像分类、分割、图像检索和深度估计;直接从图像中学习特征,而不依赖文本描述,这可以使模型更好地理解局部信息;可以从任何图像集合中学习;DINOv2的预训练版本已经可用,并可以在一系列任务上媲美CLIP和OpenCLIP。论文链接:https://arxiv.org/p

Keras 3.0一统江湖!大更新整合PyTorch、JAX,全球250万开发者在用了

刚刚,Keras3.0正式发布!经过5个月的公开Beta测试,深度学习框架Keras3.0终于面向所有开发者推出。全新的Keras3对Keras代码库进行了完全重写,可以在JAX、TensorFlow和PyTorch上运行,能够解锁全新大模型训练和部署的新功能。「Keras之父」FrançoisChollet在最新版本发布之前,也是做了多次预告。目前,有250+万的开发者都在使用Keras框架。重磅消息:我们刚刚发布了Keras3.0!在JAX、TensorFlow和PyTorch上运行Keras使用XLA编译更快地训练通过新的Keras分发API解锁任意数量的设备和主机的训练运行它现在在Py

首个大一统预训练模型!BEVGPT:集预测、决策、运动规划于一体!

本文经自动驾驶之心公众号授权转载,转载请联系出处。笔者的个人理解BEVGPT是第一个生成式,集预测、决策、运动规划于一体的自监督pre-trained的大模型。输入BEVimages, 输出自车轨迹,并且能够输出对驾驶场景的预测, 该方案训练时需要高精地图.之所以叫GPT,一方面是因为利用了GPT式的自回归训练方法,这里自回归的输入是历史的轨迹及BEV,target是下一个BEV和轨迹.另一方面,能够做到生成,即给定初始桢的BEV,算法能够自己生成接下来的多桢BEV场景.该方法并不是一个从传感器输入的端到端方法,可以看成是基于感知的结果,将后面的模块用一个模型给模型化了,在实际中也有重要的应用