华人_JJZJJ

苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

今年以来，苹果显然已经加大了对生成式人工智能（GenAI）的重视和投入。此前在2024苹果股东大会上，苹果CEO蒂姆・库克表示，今年将在GenAI领域实现重大进展。此外，苹果宣布放弃10年之久的造车项目之后，一部分造车团队成员也开始转向GenAI。如此种种，苹果向外界传达了加注GenAI的决心。目前多模态领域的GenAI技术和产品非常火爆，尤以OpenAI的Sora为代表，苹果当然也想要在该领域有所建树。今日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中，苹果正式公布自家的多模态大模型研究成

首个AI软件工程师上线！已通过公司面试抢程序员饭碗，华人创始团队手握10块IOI金牌

前段时间，英伟达CEO黄院士发出惊人言论：「都别学编程了，以后交给AI就行了，以后人人都是软件工程师。」当时还有很多人反对，说「AI永远不会取代程序员。」没想到，首个人工智能软件工程师Devin一发布，程序员的饭碗可能真要被AI端走了。在SWE-Bench基础测试中，无需人类协助，Devin就可以解决13.86%的问题。而目前的SOTA模型，在没有人类帮忙的情况下，只能完成1.96%的任务。仅从评测结果看，Devin解决真实世界软件问题的能力要远好于当前的GPT-4和Claude等模型。官方发的推特说，Devin不仅通过了一家业内领先的人工智能公司的面试，在自由职业平台Upwork上也能成功接

2024苹果学者名单公布，华人占一半！宾大博士生曾和Jim Fan搞出英伟达最火机器人

一年一度的「苹果学者」最新名单公布了！刚刚，苹果机器学习研究中心（AppleMachineLearningResearch）发布了2024年在人工智能/机器学习领域获得博士生奖学金的「苹果学者」名单。值得一提的是，今年共有21位学者获奖。其中，华人学者名额占据半壁江山，有11人。AI与机器学习（AIML）「苹果学者」博士奖学金旨在，表彰计算机科学和工程研究人员在研究生至博士后阶段做出的贡献。每位奖学金获得者在攻读博士学位期间都将获得资助，并有机会实习，且会由苹果公司同领域的研究员提供指导。「苹果学者」是根据每个候选者的创新研究、领导力及与合作者的记录，以及对推进各自领域的承诺而选出的。一起看看

陶哲轩预测再成真！AI做出椭圆曲线难题重大发现，华人数学家接近千禧年大奖

用AI研究数学领域，最近又有重大发现了。这次数学家们用AI发现的，是椭圆曲线中的murmuration（椋鸟群飞）现象。他们发现，如果以正确的方式观察，在椭圆曲线中会出现像飞行中的椋鸟群一般的图案。现在，murmuration相关研究已经轰动了数学圈，每周都有相关新研究问世。令人不可思议的是，这个发现是由数个偶然组成的——椭圆曲线的数据，恰巧按照conductor来排序；一个经验不足的本科生，恰巧没有处理某个数值，让曲线的震荡极为明显；按照conductor预排序的数据集，恰巧被人提前做了出来……任何一个要素的变动，都会导致人类与这一重要的数学发现失之交臂，或许再晚上几十年……并且，被陶哲轩认

华人CV宗师黄煦涛高徒离职特斯拉，加入OpenAI！专攻多模态模型研究

OpenAI又迎来一位AI大将。最近，华人科学家程博文官宣离职特斯拉，即将加入OpenAI专攻多模态模型的研究。图片今天是我在特斯拉自动驾驶部门的最后一天，这一年半的经历真的很棒：有机会与才华横溢的同事们共事，学习了如何开发出色的产品等等。但我向通用人工智能（AGI）进发的脚步不会因此而停歇，不久后，我将加入OpenAI的后训练（post-training）团队，参与构建多模态模型的工作。值得一提的是，程博文博士毕业于伊利诺伊大学厄巴纳-香槟分校（UIUC），导师就是大名鼎鼎的计算机科学家ThomasHuang。黄煦涛于2020年4月逝世OpenAI视频生成科学家WillDepue、技术人员F

解剖Sora：37页论文逆向工程推测技术细节，微软参与，华人团队出品

Sora刚发布不久，就被逆向工程“解剖”了？！来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述，足足有37页。他们基于Sora公开技术报告和逆向工程，对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。连计算机视觉领域的AI生成模型发展史、近两年有代表性的视频生成模型都罗列了出来：网友们也属实没想到，仅仅过了半个月、Sora还暂未公开仅有部分人可使用，学术圈相关研究竟出现得这么快。不少网友表示，综述非常全面有条理，建议全文阅读。那么这篇综述具体都讲了啥？量子位在不改变原意的基础上，对部分内容进行了整理。目录逆向工程剖析Sora技术细节整体架构多

大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

没人怀疑，OpenAI开年推出的史诗巨作Sora，将改变视频相关领域的内容生态。但GoogleDeepMind、UC伯克利和MIT的研究人员更进一步，在他们眼里，「大视频模型」也许能够像世界模型一样，真正的做到理解我们身处的这个世界。论文地址：https://arxiv.org/abs/2402.17139在作者看来，视频生成将彻底改变物理世界的决策，就像语言模型如何改变数字世界一样。研究人员认为，与文本类似，视频可以作为一个统一的接口，吸收互联网知识并表征不同的任务。例如，经典的计算机视觉任务可以被视为下一代帧生成任务（next-framegenerationtask）。模型可以通过生成操作

DeepMind携Mamba华人作者推Transformer革命之作！性能暴涨媲美Llama 2，推理能效大幅碾压

Transformer又又又被挑战了！这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构，——Hawk和Griffin。论文地址：https://arxiv.org/abs/2402.19427这种将门控线性RNN与局部注意力混合在一起的模型新架构的表现相当亮眼。首先，同为线性RNN架构的Griffin，凭借着1/2的训练数据，在所有评测中全面优于之前大火的Mamba。更重要的是，Griffin将模型成功扩展到了14B，做到了Mamba想做却没能做的事。其次，面对基于Transformer架构的模型，Griffin则凭借着1/6的训练数据，打平甚至超越了同等参数量的Ll

0.5秒，无需GPU，Stability AI与华人团队VAST开源单图生成3D模型TripoSR

最近，文生视频模型Sora掀起了新一轮生成式AI模型浪潮，模型的多模态能力引起广泛关注。现在，AI模型在3D内容生成方面又有了新突破。专长于视觉内容生成的 StabilityAI继图片生成（StableDifussion3上线）、视频生成（StableVideo上线）后紧接在3D领域发力，今天宣布携手华人团队VAST开源单图生成3D模型TripoSR。TripoSR能够在0.5s的时间内由单张图片生成高质量的3D模型，甚至无需GPU即可运行。TripoSR模型代码：https://github.com/VAST-AI-Research/TripoSRTripoSR模型权重：https://hu

中国如何复刻Sora，华人团队长文解构！996 OpenAI研究员：Sora是视频GPT-2时刻

今天，这张图在AI社区热转。它列举了一众文生视频模型的诞生时间、架构和作者机构。毫不意外，谷歌依然是视频模型开山之作的作者。不过如今AI视频的聚光灯，全被Sora抢去了。同时，自曝996作息时间表的OpenAI研究员JasonWei表示——「Sora是一个里程碑，代表着视频生成的GPT-2时刻。」对于文字生成领域，GPT-2无疑是一个分水岭。2018年GPT-2的推出，标志着能够生成连贯、语法正确的文本段落的新时代。当然，GPT-2也难以完成一篇完整无误的文章，会出现逻辑不一致或捏造事实的情况。但是，它为后续的模型发展奠定了基础。在不到五年内，GPT-4已经能够执行串联思维这种复杂任务，或者写