AR/VR、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易,因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman 和NeuMan 等方法都取得了令人瞩目的成绩。尽管只有一个摄像头视角,这些方法仍能从新的视角准确地渲染人体。不过,大多数现有的方法在渲染人体时都是针对较为理想的实验场景进行设计的。在这些场景中,障碍物几乎不存在,人的各个身体部分在每一帧中也都能全部展示出来。可这与现实场景大为不同。现实场景中常有多个障碍物,人体也会在移动过程中被障碍物遮挡。大多数的神经渲染方法在处理现实世界的场景时都会因为遮挡而困难重重,其中一大
文|智商掉了一地交互式视觉分割新作,具有语义感知的新模型~自从Meta发布了“分割一切”的SAM之后,各种二创如雨后春笋般冒出,昨天微软的一篇论文又在推特上引起讨论,虽然最开始吸引小编的是它的名字——分割“瞬息全宇宙”(《Everything,Everywhere,AllatOnce》),看到后满脑子都是杨紫琼斩获奥斯卡最佳女主角的这个电影:▲图1用SEEM分割电影剧照(图源Twitter)哈哈扯远了...回归正题:这是个视觉理解方面的多模态AI交互研究,受到LLM基于prompt的通用界面开发的启发,作者提出了一个名为SEEM的模型,它能够在一次操作中完成各种分割任务,包括语义、实例和全景分
论文导读:论文背景:2023年12月11日,AI科学家李飞飞团队与谷歌合作,推出了视频生成模型W.A.L.T(WindowAttentionLatentTransformer)——一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的扩散模型。李飞飞是华裔女科学家、世界顶尖的AI专家,现为美国国家工程院院士、美国国家医学院院士、美国艺术与科学院院士,斯坦福大学终身教授、斯坦福大学人工智能实验室主任,曾任谷歌副总裁和谷歌云首席科学家。面向问题:视频生成任务中目前主流的方法依然倾向于使用卷积或U-Net作为骨干网络,而没有充分利用Transformer模型的优势。视频的高维度也
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!仅用一张图or一段文字就能沿相机轨迹生成无限连贯3D场景:只需输入一段古诗词,诗中场景立刻映入眼帘:而且还是来回式的,可以再倒回去的那种:同一起点可以进入不同场景:真实场景也可以,其中的人物阴影等细节都毫无违和感:方块世界更不在话下,仿佛打开了“我的世界”:这项工作名为WonderJourney,由斯坦福吴佳俊团队和谷歌研究院联合打造。除了可以从任意位置开始,无限生成多样化且连贯的3D场景,WonderJourney根据文本描述生成时,可控性也很高。只要将鼠标悬停在视频上,就可以暂停自动滑动。这项工作的发布让网友们直呼“难以置信”🔥。项目代码还
论文导读:论文背景:2023年8月,AI大神何恺明在个人网站宣布,2024年将加入MIT担任教职,回归学术界。这篇论文是其官宣加盟MIT后首度与MIT师生合著的公开论文,论文一作本科毕业于清华姚班,二作为MIT电气工程与计算机科学系教授,今年的斯隆奖得主,美国科学院院士。面向问题:图像生成领域中,有条件的图像生成(基于类别标签或文本描述进行条件生成)与无条件的图像生成(完全无条件生成)之间存在很大的性能差距。无条件图像生成一直是一个更具挑战性的任务。解决方法:文章提出了一种自条件图像生成方法RCG(Representation-ConditionedimageGeneration)。该方法不依
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》(片长2小时49分钟):它“看”完之后,不仅能结合电影情节和人物轻松对电影进行点评:还能很精准地回答出剧中所涉的细节:例如:虫洞的作用和创造者是谁?答:未来的智慧生物放置在土星附近,用于帮助人类进行远距离星际穿越。男主库珀是如何将黑洞中的信息传递给女儿墨菲?答:通过手表以摩斯号码的方式传递数据。啊这,感觉电影博主的饭碗也要被AI抢走了。这就是最新多模态大模型LLaMA-VID,它支持单图、短视频和长视频三种输入。对比来看,包括GPT-4V等在内的同类模型基本只能处理图像。而背后原
大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。用何恺明团队自己的话来说:有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。那么,它究竟是如何做到的呢?类似自监督学习的自条件生成首先,所谓无条件生成,就是模型在没有
Title:3D-AwareFaceSwapping(3D感知的人脸交换)Affiliation:上海交通大学人工智能研究所Authors:YixuanLi,ChaoMa,YichaoYan,WenhanZhu,XiaokangYangKeywords:Faceswapping,3Dhumanfaces,GenerativeAdversarialNetwork,geometrySummary:(1):该论文研究内容为人脸交换,是计算机视觉领域的一个重要研究课题,具有广泛的娱乐和隐私保护应用。(2):既往方法直接学习交换2D面部图像,对人脸的几何信息不予以考虑。当源人脸图像和目标人脸图像之间存在
未来也许只需动动念头,就能让机器人帮你做好家务。斯坦福大学的吴佳俊和李飞飞团队近日提出的NOIR系统能让用户通过非侵入式脑电图装置控制机器人完成日常任务。NOIR能将你的脑电图信号解码为机器人技能库。它现在已能完成例如烹饪寿喜烧、熨衣服、磨奶酪、玩井字游戏,甚至抚摸机器狗等任务。这个模块化的系统具备强大的学习能力,可以应对日常生活中复杂多变的任务。大脑与机器人接口(BRI)堪称是人类艺术、科学和工程的集大成之作。我们已经在不胜枚举的科幻作品和创意艺术中见到它,但真正实现BRI却非易事,需要突破性的科学研究,创造出能与人类完美协同运作的机器人系统。对于这样的系统,一大关键组件是机器与人类通信的能
近来,利用3D感知扩散模型训练模型,然后对单个物体进行SDS蒸馏的研究数不胜数。但是,能够真正做到「场景级」的画面生成,从未实现。现如今,斯坦福李飞飞和谷歌团队打破了这个记录!比如,输入一张从某个角度拍摄的客厅图片,整个客厅的样貌就出来了。再来一张角度很偏的屋子拐角图,也能生成一个意想不到的空间。还有各种物体室内、户外的全场景图。看到这儿,不得不不让人惊呼AI「脑补」简直强的一批!那么,这究竟是如何实现的呢?3D感知扩散模型——ZeroNVS最新论文中,斯坦福和谷歌研究人员引入了一种3D感知扩散模型——ZeroNVS。论文地址:https://arxiv.org/pdf/2310.17994.