音视频技术开发周刊 | 285

LiveVideoStack_ 2024-05-03 原文

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

谷歌前脚刚宣布AI工具整合进Workspace，微软后脚就急匆匆召开了发布会，人狠话不多地祭出了办公软件王炸——Microsoft 365 Copilot，再次闪瞎全世界。从此，不管是Word、PPT、Excel，还是Outlook、Teams、Microsoft Viva、Power Platform，所有这些办公软件，通通都会得到GPT-4的加持！

GPT-4开发了一门编程语言

这家伙还有什么不会的？

https://lukebechtel.com/blog/gpt4-generating-code

用ChatGPT顺手写Linux Shell脚本

ChatGPT 能够像普通语言一样理解人类写的话语，并生成与之相关的语言文字输出。将ChatGPT应用于Shell脚本编写，意味着用户可以通过语言命令输入代码、命令及参数，ChatGPT可解析用户提供的语言，将其转化为Linux shell脚本代码。

谷歌工程主管：AIGC 将在 3 年内终结编程

前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 在芝加哥计算机协会的一个虚拟会议上表示，ChatGPT和GitHub Copilot预示着编程终结的开始。Welsh 断言，生成式 AI 将在 3 年内终结编程。

ChatGPT与新摩尔定律我们与清华教授、衔远科技创始人周伯文聊了聊

OpenAI创始人Sam Altman又通过Twitter提出了“新摩尔定律”——宇宙中的智能总量（amount of intelligence）每18个月翻一倍。面对这个AI时代的“iPhone时刻”，我们陆续邀请学界与业界的资深专家，以及行业投资人与创业者进行深度交流。

何恺明 MIT 最新演讲：未来工作将聚焦 AI for science

何恺明是 CV 领域的翘楚，其谷歌学术被引用次数已经突破40万次，在2022年人工智能全球最具影响力学者榜单中，何恺明获得第一名。

Compression for AGI

Jack Rae 是 OpenAI 的团队负责人，主要研究大型语言模型和远程记忆。此前，他在 DeepMind 工作了 8 年，领导大型语言模型 (LLM) 研究组。在本次演讲中，我们讨论了基础模型如何开始验证 70 多年前形成的假设：更好地压缩源数据的统计模型最终会从中学习更多基础和通用功能。我们首先介绍压缩的一些基础知识，然后描述跨越数千亿个参数的更大的语言模型实际上是最先进的无损压缩器。我们讨论了在实现最佳压缩的过程中可能会出现的一些新兴功能和持续限制。

「AGI OS」时代，创业者如何做应用开发

人类的特殊之处在于，人拥有了足够的智慧来发明科学的方法和工具，工具的进化是人类文明的里程碑。我相信AI是人类在21世纪的最重要工具。在21年，我们认为“2010年手机前置摄像头的成熟，让视频创作的门槛大幅降低，催生了今天我们每天都在刷的抖音快手。我们一直在思考，什么是今天让创作门槛100倍降低的技术变量，那AIGC是我相信的一个答案。”2年后，我们有了GPT和扩散模型的作为新一代开发者的新工具，特别期待开发者使用新工具能创造出独特的用户体验。欢迎和我们交流。

ChatGPT之后，AIGC会如何革新内容创作？

AI是否会让创作者们集体“失业”，甚至让“创作”本身走向衰颓，就像机械复制时代的艺术品可能失去“灵韵”那样。换言之，AIGC的流行给了我们一个重新审视“创作”是什么、是否为人所独有这些问题的机会。

了解AIGC音频/图像数据生成，这几篇论文给你划好了重点！

与文本生成更加关注抽象语义不同，声音和视觉模态还需要生成更多的细节信息。所以，声音和视觉内容（语音、音效、音乐、图像、视频等）的生成面临着一系列挑战：如何刻画声音视觉内容中复杂且高频的数据分布；如何建模生成过程中的一对多映射问题；如何利用大规模无标注数据解决数据稀疏性问题；在基于其它模态生成时，如何解决跨模态对齐问题等。

微软3D生成扩散模型RODIN，秒级定制3D数字化身

由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型，首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身（Avatar）的功能。仅需一张图片甚至一句文字描述，RODIN 扩散模型就能秒级生成 3D 化身，让低成本定制 3D 头像成为可能，为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

基于扩散模型的3D智能创作引擎与内容投放算法最新实践

3D模型在智能设计领域以其可塑性，可编辑性有着属于自己的独特优势，扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的：建模的效率，模型的数量，以及3D设计的成本。

NeuMan：从单视角视频中创建数字人

作者提出了一个新颖的框架，可以从单一野外视频中重构人物和场景，并能够渲染出新的人体姿态和视角。给定一段由移动相机捕捉的视频，作者训练了两个 NeRF 模型：一个是人类的 NeRF 模型，另一个是场景的 NeRF 模型。为了训练这些模型，作者依赖现有的方法来估计人物和场景的粗略几何形状。

库克力排众议于今年推出新头显设备

在产品打造方面，该头显历经7年开发，时间投入是iPhone的两倍，外界普遍猜测苹果将于今年6月推出这款设备，这个时间节点是苹果CEO蒂姆·库克与公司团队成员内部博弈的结果。

https://www.vrtuoluo.cn/535553.html

AOMedia电子刊（2023第一期）

新一期AOMedia电子刊，关于AV1生态演进和技术升级的重点消息全在这里。

https://storage.googleapis.com/downloads.aomedia.org/assets/pdf/AOMedia%20Decoder%20-%20Q1%202023%20Non-Members.pdf

解读帧间快速算法

本次介绍关于帧间快速算法的几篇论文，目标是缓解HEVC/VVC中复杂划分和编码带来的巨大复杂度提升。

在线视频协同：探究画面帧的准确性

视频协作平台会涉及网络、编解码等众多技术栈，并且要支持各类终端。其中一个关键能力是实现毫秒级的同步，这对于视频协作平台十分重要。本文来自分秒帧 web多媒体开发工程师耿学岩的投稿，详解了实现毫秒级同步遇到的两个挑战和解决方案。

音视频编解码—JPEG3—Baseline流程介绍

JPEG 有许多指定版本，JPEG base line 压缩仅包含一组最低要求：是有损的，无法准确重建原始图像。Baseline（“标准”）使用大多数网络浏览器都能识别的格式。Baseline优化创建具有优化颜色和稍小文件大小的文件。

基于残差熵编码的JPEG无损转码框架

为了实现JPEG压缩图像的无损转码，该框架引入了残差压缩的熵模型和基于上下文的熵编码模型，可以有效地学习到残差量化DCT系数的分布并压缩。由于基于深度学习的有损变换编码和残差熵编码的协作，我们提出的JPEG无损转码架构在JPEG图像的再压缩具有较大优势。在多个图像压缩评估经典数据集上进行的大量实验表明，该框架相比于JPEG压缩图像可以再平均节省21.49%的比特，比最新的具有JPEG无损转码功能的JPEG-XL在比特节省方面高出3.51%。

梦工厂开源OpenMoonRay

MoonRay是梦工厂开发的制作 MCRT 渲染器，已被用于故事片驯龙高手：隐藏的世界，巨魔世界巡回演唱会等，开源采用Apache License 2.0 许可证。

https://github.com/dreamworksanimation/openmoonray

从一道面试题看 TCP 的吞吐极限

分享一个 TCP 面试题：单条 TCP 流如何打满香港到旧金山的 320Gbps 专线？(补充，写成 400Gbps 更具迷惑性，但预测大多数人都会跑偏，320Gbps 也就白给了)

https://zhuanlan.zhihu.com/p/612825623

CVPR 2023｜快手视频质量评估算法被顶会收录

计算机视觉领域顶级会议Computer Vision and Pattern Recognition Conference（CVPR 2023）将于6月18日至22日在加拿大温哥华召开，来自快手音视频技术团队题为《Quality-aware Pre-trained Models for Blind Image Quality Assessment》——适用于无参考图像/视频质量评估的质量感知预训练模型的最新研究成果被会议成功收录。

客观评价模型与主观DMOS分数拟合的分享与实用性探讨

虽然客观评价方法是让计算机尽量从人的主观视角出发来预测特定视频的评分，但不同客观评价指标与主观感受的符合程度差距不同，因此需要通过客观评价模型与主观评价DMOS分数的非线性拟合结果，基于预测的准确性、一致性、稳定性、单调性来衡量该客观评价方法的好坏。

MRCP在美团语音交互中的实践和应用

要将 ASR、TTS 这些技术应用到电话系统上，还需要一些额外的工作和技术支撑，其中比较重要的技术之一也就是本文将要介绍的 MRCP。

https://tech.meituan.com/2023/03/09/practice-and-application-of-mrcp-in-voice-interaction-of-meituan.html

用多个声全息图打印3D物体

在本文中，我们将探讨这种采用多个声学全息图的创新方法的工作原理，并研究其潜在的应用和局限性。声学全息图是可以将声波塑造成复杂图案的设备。它们由具有特定图案的孔或凸起的3D打印板制成。

腾讯音乐天琴实验室首次发布三套开源数据集

此次发布的三套开源数据集分别是片段翻唱数据集、哼唱数据集和歌唱评价数据集。其中，片段翻唱数据集（Lyra-CoverSegment Dataset, 简称Lyra-CS Dataset）打破目前只有全曲翻唱开源数据集的局面，有助于研究解决听歌识曲难以识别翻唱改编的问题。Lyra-CS来自于QQ音乐曲库满足开源授权条件的歌曲，其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或live版本片段，数据集总时长近400小时，包含超53万个录音片段。

https://lyracobar.y.qq.com/index.html

2年帮数百万音视频创作者解决协作痛点，这家公司做对了什么？

分秒帧是一个帮助音视频行业来解决在线生产协同的SaaS工具，它的核心价值是帮助音视频行业的从业人员去提高创作和制作的效率，节省制作成本。

活动推荐

倒计时11天：和LiveVideoStack在2023年的第一场约会

时隔15个月，再聚北京。

时间：2023年3月31日 - 4月1日

报名：点击【阅读原文】了解详细信息，报名参与。

音视音视频 xff0c xff xff0 microsoft

有关音视频技术开发周刊 | 285的更多相关文章

ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - 是否可以覆盖 gemfile 进行本地开发？ - 2
我们的git存储库中目前有一个Gemfile。但是，有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它，我必须将它添加到我们的Gemfile中，但每次我checkout到我们的master/dev主分支时，由于与跟踪的gemfile冲突，我必须删除它。我想要的是类似Gemfile.local的东西，它将继承从Gemfile导入的gems，但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗？最佳答案设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
微信小程序开发入门与实战（Behaviors使用） - 2
@作者:SYFStrive @博客首页:HomePage📜：微信小程序📌：个人社区（欢迎大佬们加入）👉：社区链接🔗📌：觉得文章不错可以点点关注👉：专栏连接🔗💃：感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序（🔥）目录自定义组件-behaviors 1、什么是behaviors 2、behaviors的工作方式 3、创建behavior 4、导入并使用behavior 5、behavior中所有可用的节点 6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors 1、什么是behaviorsbehaviors是小程序中，用于实现

音视频技术开发周刊 | 285

有关音视频技术开发周刊 | 285的更多相关文章

随机推荐