今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在2024苹果股东大会上,苹果CEO蒂姆・库克表示,今年将在GenAI领域实现重大进展。此外,苹果宣布放弃10年之久的造车项目之后,一部分造车团队成员也开始转向GenAI。如此种种,苹果向外界传达了加注GenAI的决心。目前多模态领域的GenAI技术和产品非常火爆,尤以OpenAI的Sora为代表,苹果当然也想要在该领域有所建树。今日,在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中,苹果正式公布自家的多模态大模型研究成
前段时间,英伟达CEO黄院士发出惊人言论:「都别学编程了,以后交给AI就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI永远不会取代程序员。」没想到,首个人工智能软件工程师Devin一发布,程序员的饭碗可能真要被AI端走了。在SWE-Bench基础测试中,无需人类协助,Devin就可以解决13.86%的问题。而目前的SOTA模型,在没有人类帮忙的情况下,只能完成1.96%的任务。仅从评测结果看,Devin解决真实世界软件问题的能力要远好于当前的GPT-4和Claude等模型。官方发的推特说,Devin不仅通过了一家业内领先的人工智能公司的面试,在自由职业平台Upwork上也能成功接
一年一度的「苹果学者」最新名单公布了!刚刚,苹果机器学习研究中心(AppleMachineLearningResearch)发布了2024年在人工智能/机器学习领域获得博士生奖学金的「苹果学者」名单。值得一提的是,今年共有21位学者获奖。其中,华人学者名额占据半壁江山,有11人。AI与机器学习(AIML)「苹果学者」博士奖学金旨在,表彰计算机科学和工程研究人员在研究生至博士后阶段做出的贡献。每位奖学金获得者在攻读博士学位期间都将获得资助,并有机会实习,且会由苹果公司同领域的研究员提供指导。「苹果学者」是根据每个候选者的创新研究、领导力及与合作者的记录,以及对推进各自领域的承诺而选出的。一起看看
用AI研究数学领域,最近又有重大发现了。这次数学家们用AI发现的,是椭圆曲线中的murmuration(椋鸟群飞)现象。他们发现,如果以正确的方式观察,在椭圆曲线中会出现像飞行中的椋鸟群一般的图案。现在,murmuration相关研究已经轰动了数学圈,每周都有相关新研究问世。令人不可思议的是,这个发现是由数个偶然组成的——椭圆曲线的数据,恰巧按照conductor来排序;一个经验不足的本科生,恰巧没有处理某个数值,让曲线的震荡极为明显;按照conductor预排序的数据集,恰巧被人提前做了出来……任何一个要素的变动,都会导致人类与这一重要的数学发现失之交臂,或许再晚上几十年……并且,被陶哲轩认
OpenAI又迎来一位AI大将。最近,华人科学家程博文官宣离职特斯拉,即将加入OpenAI专攻多模态模型的研究。图片今天是我在特斯拉自动驾驶部门的最后一天,这一年半的经历真的很棒:有机会与才华横溢的同事们共事,学习了如何开发出色的产品等等。但我向通用人工智能(AGI)进发的脚步不会因此而停歇,不久后,我将加入OpenAI的后训练(post-training)团队,参与构建多模态模型的工作。值得一提的是,程博文博士毕业于伊利诺伊大学厄巴纳-香槟分校(UIUC),导师就是大名鼎鼎的计算机科学家ThomasHuang。黄煦涛于2020年4月逝世OpenAI视频生成科学家WillDepue、技术人员F
Sora刚发布不久,就被逆向工程“解剖”了?!来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有37页。他们基于Sora公开技术报告和逆向工程,对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。连计算机视觉领域的AI生成模型发展史、近两年有代表性的视频生成模型都罗列了出来:网友们也属实没想到,仅仅过了半个月、Sora还暂未公开仅有部分人可使用,学术圈相关研究竟出现得这么快。不少网友表示,综述非常全面有条理,建议全文阅读。那么这篇综述具体都讲了啥?量子位在不改变原意的基础上,对部分内容进行了整理。目录逆向工程剖析Sora技术细节整体架构多
没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。但GoogleDeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。论文地址:https://arxiv.org/abs/2402.17139在作者看来,视频生成将彻底改变物理世界的决策,就像语言模型如何改变数字世界一样。研究人员认为,与文本类似,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。例如,经典的计算机视觉任务可以被视为下一代帧生成任务(next-framegenerationtask)。模型可以通过生成操作
Transformer又又又被挑战了!这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。论文地址:https://arxiv.org/abs/2402.19427这种将门控线性RNN与局部注意力混合在一起的模型新架构的表现相当亮眼。首先,同为线性RNN架构的Griffin,凭借着1/2的训练数据,在所有评测中全面优于之前大火的Mamba。更重要的是,Griffin将模型成功扩展到了14B,做到了Mamba想做却没能做的事。其次,面对基于Transformer架构的模型,Griffin则凭借着1/6的训练数据,打平甚至超越了同等参数量的Ll
最近,文生视频模型Sora掀起了新一轮生成式AI模型浪潮,模型的多模态能力引起广泛关注。现在,AI模型在3D内容生成方面又有了新突破。专长于视觉内容生成的 StabilityAI继图片生成(StableDifussion3上线)、视频生成(StableVideo上线)后紧接在3D领域发力,今天宣布携手华人团队VAST开源单图生成3D模型TripoSR。TripoSR能够在0.5s的时间内由单张图片生成高质量的3D模型,甚至无需GPU即可运行。TripoSR模型代码:https://github.com/VAST-AI-Research/TripoSRTripoSR模型权重:https://hu
今天,这张图在AI社区热转。它列举了一众文生视频模型的诞生时间、架构和作者机构。毫不意外,谷歌依然是视频模型开山之作的作者。不过如今AI视频的聚光灯,全被Sora抢去了。同时,自曝996作息时间表的OpenAI研究员JasonWei表示——「Sora是一个里程碑,代表着视频生成的GPT-2时刻。」对于文字生成领域,GPT-2无疑是一个分水岭。2018年GPT-2的推出,标志着能够生成连贯、语法正确的文本段落的新时代。当然,GPT-2也难以完成一篇完整无误的文章,会出现逻辑不一致或捏造事实的情况。但是,它为后续的模型发展奠定了基础。在不到五年内,GPT-4已经能够执行串联思维这种复杂任务,或者写