jjzjj

【达摩院OpenVI】开源体验AI云台,去视频抖动

AI记忆 2023-04-18 原文

团队模型、论文、博文、直播合集,点击此处浏览

一、背景

随着自媒体与短视频的兴起,人们有了越来越多的拍摄视频的需求。然而由于手持拍摄、硬件限制等原因,利用手机等普通摄影设备拍摄的视频难免存在视频抖动问题。尤其是开启较高倍数的变焦后,手持拍摄很难拍摄到稳定的视频,极易产生抖动的现象。使用云台、斯坦尼康等外设可以缓解这样的抖动,但是很多时候多带一个外设降低了拍摄视频的便利程度,会使得随时随地的拍摄体验大打折扣。

那么除了换用更专业的摄影设备或使用云台等配件外,是否有其他的方法消除视频抖动呢?其实无需担忧,AI“魔法”可以对抖动的视频进行稳像,达到清晰稳定的效果。视觉增强团队在ModelScope魔搭平台开源了DUT-RAFT视频稳像算法,几行代码即可调用,无需复杂的操作,也无需复杂的输入(如陀螺仪参数等)。ModelScope网页端还上线了体验Demo,在线上传视频,鼠标一点即可畅快体验让视频变稳定的AI“魔法”。

二、体验

点击https://modelscope.cn/models/damo/cv_dut-raft_video-stabilization_base/summary 即可在线快速体验,ModelScope平台支持多种调用方式,用户可以在网页端上传抖动视频一键体验视频稳像效果;也可以在本地利用几行代码构建Pipeline,轻松调用视频稳像能力;值得一提的是,现在在ModelScope平台绑定阿里云账号,即可拥有零门槛的Notebook在线开发环境,算法、模型自动导入,省去安装环境的麻烦;并可享有长期免费的CPU资源和100小时免费的GPU算力(以官网显示为准)。

借助开源的视频稳像能力,个人视频拍摄者、Vlogger们可以方便地将原本抖动的视频变得稳定,轻松拯救“废片”;一些由于早期拍摄条件限制而抖动的老片、早期影视剧也能够在AI“魔法”的加持下重焕青春。

三、方法

视频稳像算法基本可以分为视频运动估计和运动平滑两个步骤。然而由于视频抖动成因多种多样,如视差、相机平移、空气波动等,这样复杂的空间变化导致视频运动估计十分困难;同时一些大运动的场景也为运动估计增加了额外的难度。因此对视频进行运动估计并进行平滑,同时还要保证视频清晰度、避免边缘瑕疵并减少裁剪对算法提出了很大的挑战。

一些早期的传统方法依赖手工设计的特征对视频帧进行全图的运动估计,带来了很大的计算量;或是采用单参数的运动模型(如单个仿射变换、单个单应性变化等)来估计视频运动,导致视频运动的估计并不准确。一些文献已经证实了单个单应性变换不足以表示复杂的空间变化运动。另外一些算法需要复杂的额外输入,如陀螺仪参数等硬件参数来辅助运动估计,提升了算法使用的门槛;即使增加了输入,陀螺仪参数也仅能反应相机的旋转变换,并不能处理平移运动,并不能带来非常准确的运动估计。

图1. 从早期传统方法、MeshFlow到DUT的发展历程

MeshFlow构建了空间平滑的稀疏运动场;其运动矢量仅在网格顶点处定义,相比全图的运动估计减少了计算量,能够实时运行;MeshFlow首先检测FAST特征,并利用KLT算法(Kanade-Lucas-Tomasi光流法)进行特征匹配,从而获得匹配特征点的运动矢量。接着MeshFlow在视频帧上定义一个MxN的方形网格,将每一个特征点的运动矢量被转移到其附近对应的网格顶点中。 每个网格顶点可能接受多个运动矢量,MeshFlow使用中值滤波器进行滤波,从而在每一个时刻(一帧)为每个顶点产生一个唯一的运动矢量。 随着时间的推移,网格的每一个顶点收集了不同时刻的运动矢量,MeshFlow再使用自适应路径平滑(PAPS)来对这些运动矢量进行平滑,以达到视频稳像的效果。

图2. MeshFlow的算法流程

MeshFlow取得了不错的视频稳像效果,而DUT继承了MeshFlow的思想,并结合了神经网络的强大表示能力。DUT同样将算法分为运动估计和运动平滑两个阶段,在轨迹估计阶段,DUT首先利用预训练的PWCNet生成光流、RFNet生成关键点,从而获得视频帧中每个关键点处的光流;再利用多单应性估计策略生成初始运动估计,而后使用运动细化网络来优化运动估计生成MxN网格顶点处的运动矢量。与MeshFlow类似,DUT根据时间收集每个网格顶点处的运动矢量来获得基于网格顶点的轨迹。 在轨迹平滑阶段,DUT利用网络来预测动态的平滑内核,从而实现运动平滑。与MeshFlow相似,DUT算法是无监督的,其无需成对的抖动-稳定视频对来进行训练。相比早期的神经网络监督算法,DUT能够避免困难的数据对收集,同时也取得了更好的视频稳像效果。

图3. DUT的算法流程

在DUT-RAFT算法中,DUT算法的几个问题得到了解决。首先是DUT使用预训练的PWCNet来估计光流,其生成的光流不够准确,从而影响了初始运动估计的精度;DUT-RAFT将光流预测模块替换为了较新的RAFT模型,能够更好地生成精确光流,提升运动估计精度。其次,为了适应不同类型的抖动,DUT-RAFT在训练阶段提升了训练分辨率并加入了数据增广,带来了更好的视频稳像效果。此外,为了降低计算成本,DUT算法在小尺寸的图像上进行计算和warp,再将生成的稳定视频帧进行上采样获得原始尺寸的视频帧;这样的逻辑导致稳定后的视频清晰度严重下降,影响了算法的实用性。DUT-RAFT优化了上采样逻辑,使用原图进行warp,从而保持了原始视频的清晰度,使算法能够广泛应用于各种实用场景下。

四、展望

在AI技术不断发展的当下,我们仍将继续探索视频稳像技术及其在不同场景下的应用;尤其是与AIGC能力相结合,为大家带来能够不断创造优质内容的真正AI“魔法”。

五、参考

[1] Sun D, Yang X, Liu M Y, et al. Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8934-8943.

[2] Liu S, Tan P, Yuan L, et al. Meshflow: Minimum latency online video stabilization[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part VI 14. Springer International Publishing, 2016: 800-815.

[3] Xu Y, Zhang J, Maybank S J, et al. DUT: learning video stabilization by simply watching unstable videos[J]. IEEE Transactions on Image Processing, 2022, 31: 4306-4320.

[4] Teed Z, Deng J. Raft: Recurrent all-pairs field transforms for optical flow[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part II 16. Springer International Publishing, 2020: 402-419.

[5] Choi J, Kweon I S. Deep iterative frame interpolation for full-frame video stabilization[J]. ACM Transactions on Graphics (TOG), 2020, 39(1): 1-9.

有关【达摩院OpenVI】开源体验AI云台,去视频抖动的更多相关文章

  1. 动漫制作技巧如何制作动漫视频 - 2

    动漫制作技巧是很多新人想了解的问题,今天小编就来解答与大家分享一下动漫制作流程,为了帮助有兴趣的同学理解,大多数人会选择动漫培训机构,那么今天小编就带大家来看看动漫制作要掌握哪些技巧?一、动漫作品首先完成草图设计和原型制作。设计草图要有目的、有对象、有步骤、要形象、要简单、符合实际。设计图要一致性,以保证制作的顺利进行。二、原型制作是根据设计图纸和制作材料,可以是手绘也可以是3d软件创建。在此步骤中,要注意的问题是色彩和平面布局。三、动漫制作制作完成后,加工成型。完成不同的表现形式后,就要对设计稿进行加工处理,使加工的难易度降低,并得到一些基本准确的概念,以便于后续的大样、准确的尺寸制定。四、

  2. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

  3. TimeSformer:抛弃CNN的Transformer视频理解框架 - 2

    Transformers开始在视频识别领域的“猪突猛进”,各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解,本篇主要介绍了FBAI团队的TimeSformer,这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用,就请点赞、收藏、关注!paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图

  4. ruby - 如何更改此正则表达式以从未指定 v 参数的 Youtube URL 获取 Youtube 视频 ID? - 2

    目前我正在使用这个正则表达式从YoutubeURL中提取视频ID:url.match(/v=([^&]*)/)[1]我怎样才能改变它,以便它也可以从这个没有v参数的YoutubeURL获取视频ID:http://www.youtube.com/user/SHAYTARDS#p/u/9/Xc81AajGUMU感谢阅读。编辑:我正在使用ruby​​1.8.7 最佳答案 对于Ruby1.8.7,这就可以了。url_1='http://www.youtube.com/watch?v=8WVTOUh53QY&feature=feedf'url

  5. 西安华为OD面试体验 - 2

    西安华为OD面试体验开始投简历技术面试进展工作进展开始投简历去年一整年一直在考研和工作之间纠结,感觉自己的状态好像当时的疫情一样差劲。之前刚毕业的时候投了个大厂的简历,结果一面写算法的时候太拉跨了,虽然知道时dfs但是代码熟练度不够,放在平时给足时间自己可以调试通过,但是熟练度不够那面试当时就写不出来被刷了。说真的算法学到后期我感觉最重要的是熟练度和背板子(对于我这种普通玩家来说),面试题如果一上来短时间内想不出思路就完蛋了。然后由于当时找的工作不是很理想就又想考研了。但是考研是有风险的,我自我感觉自己可能冲不上那个学校,而找工作一个没成可以继续找嘛。本着抱着试试看的态度在boss上投了简历,

  6. python - 开源 Twitter 克隆(在 Ruby/Python 中) - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭6年前。Improvethisquestion是否有任何用Ruby或Python编写的生产就绪的开源Twitter克隆?我对功能丰富的实现更感兴趣,而不仅仅是简单的Twitter消息(例如:API、FBconnect、通知等)谢谢!

  7. Gradle 自动化构建开源工具 - 2

    文章目录写在前面1、下载与安装(windows)1.1、idea中配置gradle2、基础知识(Gradle6.9为例)2.1、Gradle脚本语法2.1.1、dependsOn2.1.2、创建动态任务2.1.3、增加任务行为2.1.4、参数2.1.5、Ant任务2.1.6、方法2.1.7、默认任务2.1.6、依赖任务的不同输出3、java项目中使用3.1、在已有项目中构建gradle3.2、在新建项目时构建gradle(idea)3.3、gradle项目目录结构3.4、build.gradle3.4.1、plugins3.4.2、repositories3.4.3、dependencies3

  8. 「想体验ChatGPT中文聊天?」那快进来,你用不上算我输 - 2

    ♥️作者:白日参商🤵‍♂️个人主页:白日参商主页♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!!🎈🎈加油!加油!加油!加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+!「想体验ChatGPT中文聊天?」那快进来,你用不上算我输项目场景:项目条件一、那就开始吧1、安装ChatGPT-Desktop2、OpenAPI设置二、使用实例恭喜你!!!配置成功了!!!API和URL都是博主免费提供给大家的!!!恭喜你!!!配置成功了!!!API和URL都是博主免费提供给大家的!!!🎈🎈加油!加油!加油!加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+!项目场景:近几个月可以说ChatGPT是火得一

  9. 未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2

    文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们

  10. 焕新古文化传承之路,AI为古彝文识别赋能 - 2

    目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、

随机推荐