大模型在生成高质量图像方面表现出色,但在生成视频任务中,经常会面临视频不连贯、图像模糊、掉帧等问题。这主要是因为生成式抽样过程中的随机性,会在视频序列中引入无法预测的帧跳动。同时现有方法仅考虑了局部视频片段的时空一致性,无法保证整个长视频的整体连贯性。为了解决这些难题,新加坡南洋理工大学的研究人员开发了一种Upscale-A-Video框架,无需任何训练便能快速集成到大模型中,提供视频超分辨率、去噪、还原等强大功能。论文地址:https://arxiv.org/abs/2312.06640开源地址:https://github.com/sczhou/Upscale-A-Video项目地址:ht
在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。尽管当前图表理解领域中的最先进模型在简单测试集上表现出色,但由于缺乏语言理解和输出能力,它们无法胜任更为复杂的问答任务。另一方面,基于大语言模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏针对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上持续进步。近期,腾讯联合南洋理工大学、东南大学提出了ChartLlama。研究团队创建了一个高质量图表数据集,并训练了一个专注于图表理解和生成任务的多模态大型语言模型。ChartLlama结合
想知道《清明上河图》里面有多少头骆驼吗?来看看这个支持超高清输入的多模态模型吧。最近,来自南洋理工的华人团队基于Fuyu-8B打造出了80亿参数的多模态大模型OtterHD。论文地址:https://arxiv.org/abs/2311.04219与受限于固定尺寸视觉编码器的传统模型不同,OtterHD-8B具有处理灵活输入尺寸的能力,确保了其在各种推理需求下的通用性。同时,团队还提出了一个全新的基准测试MagnifierBench,可以细致地评测LLM辨别大尺寸图像中物体的微小细节和空间关系的能力。结果显示,OtterHD-8B的表现,尤其是在直接处理高分辨率输入时,远远优于同类模型。效果演
西风萧箫发自凹非寺量子位|公众号QbitAI业界最领先的大模型们,竟然集体“越狱”了!不止是GPT-4,就连平时不咋出错的Bard、BingChat也全线失控,有的要黑掉网站,有的甚至扬言要设计恶意软件入侵银行系统:这并非危言耸听,而是南洋理工大学等四所高校提出的一种大模型“越狱”新方法MasterKey。用上它,大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。研究中,诱骗GPT-4、Bard和Bing等大模型“越狱”的,竟然也是大模型——只需要利用大模型的学习能力、让它掌握各种“诈骗剧本”,就能自动编写提示词诱导其它大模型“伤天害理”。所以,相比其他大模型越狱方法,MasterKey
人们很容易就能在反直觉视频(幽默的、创意的、充满视觉效果的视频)中获得愉悦感,这吸引力不仅来自于视频对人类的视觉感官刺激,更来自于人类与生俱来的理解和发现快乐的能力,即能够理解并在出乎意料和反直觉的时刻找到乐趣。然而,尽管今天的计算机视觉模型取得了重大进步,但问题仍然存在:视频模型能够「理解」视频中的幽默或创造力吗?目前的视频问答(VideoQA)数据集仍集中于常见的、不太令人惊讶的视频和简单的任务(如Multi-choice,Open-end)。仅仅回答出视频中简单的人事物(What,Who,Howmany,etc.)显然是不足以为理解视频提供帮助的。常用的视频问答数据集包括YouCook2
能够拜师在“人工智能10大新星”名下,必定可以学习到前沿技术,受益良多,本案例中的C老师无疑就是这个幸运儿。我们只用了7天时间就取得了这位AI新星导师的邀请函,最终C老师顺利获批CSC,如愿出国。C老师背景:申请类型:CSC访学工作背景:高校老师教育背景:博士研究方向:计算机/知识推理学术背景:近年论文少,但主持并参与多个项目申请难点:要求20天内获得邀请函申请过程:人工智能(AI)是当今科技领域最热门的话题之一。作为世界尖端技术,AI拥有巨大的发展潜力,为此受到知识界、企业界的广泛追捧。而国际人工智能领域的著名杂志IEEEIntelligentSystems,从2006年起,在全球范围每两年
作为计算机视觉(CV)研究中长期存在的挑战,视觉识别(如图像分类、目标检测和语义分割)是自动驾驶、遥感等众多计算机视觉应用的基石。深度学习的出现使得视觉识别取得了巨大成功。然而,现有的视觉识别研究大多依赖于昂贵的标注数据进行深度神经网络训练,并且通常需要为每个任务训练一个独立的网络,这导致了耗时费力的识别模式。为了应对这些挑战,大型视觉语言模型引起了广泛关注并得到深入研究。通过学习互联网上大量图像-文本对之间丰富的视觉语言对应关系,现在可以使用一个视觉语言模型(如CLIP、ALIGN)进行各种视觉识别任务的零样本预测。本综述中,来自新加坡南洋理工大学的几位研究者全面研究了针对视觉识别任务的大型
还记得前一阵子爆火的DragGAN吗?没错,就是那个拖一拖,拽一拽,就能实现完美P图的模型。因为其「傻瓜式」的操作,和强大的性能,直接炸翻了作图圈。人们直言,现在终于能实现甲方「让大象转过来」的需求了!而现在,论文的第一作者XingangPan也正式成为了南洋理工助理教授。第一作者——XingangPan消息一出来,业内人士也是第一时间送上了祝贺。在Pan教授的GitHub主页上,他的个人职务已经更新完毕。在成为南洋理工大学的助理教授之前,他是马克斯·普朗克计算机科学研究所的博士后研究员,由ChristianTheobalt教授指导。在此之前,他于2016年在清华大学获得学士学位,并2021年
孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上的古典之美,表现出了“任彼如泰山压顶,我只当清风拂面”的博大胸怀。本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文,让流行天后念给你听。Sadtalker配置之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步,但Wav2lip的问题是虚拟人物的动态效果只能
本月初,Meta推出的一款可以「分割一切」的模型SegmentAnythingModel(SAM)已经引起了广泛的关注。今天,我们向大家介绍一款名为「SegmentAnyRGBD(SAD)」的机器学习模型。与以往所有使用SAM的工具的不同之处在于,SAD读入的图片可以是经过渲染之后的深度图,让SAM直接根据几何信息来分割图像。该项目是由VisualIntelligenceLab@HKUST,HUST,MMLab@NTU,SmilesLab@XJTU和NUS的同学完成的。如果大家觉得这个项目有意思的话,请大家多多star~演示程序链接:https://huggingface.co/spaces/