一文搞懂视频编解码原理

嵌入式视觉 2023-03-28 原文

视频编解码算法分为传统算法和基于深度学习的方法，本文主要介绍基于传统算法的视频编解码技术的原理，部分内容和图片参考网上技术博客（链接已放在文章末尾）。

一，基本术语

数字图像的定义及理解可以参考这篇文章：数字图像处理笔记｜一文搞懂数字图像基础。

颜色深度: 存储每个像素颜色的强度，需要占用一定大小的数据空间，这个空间大小即为颜色深度，对于 RGB 色彩模型，颜色深度是 24 （8*3）bit。
图片分辨率: 图像的像素的数量，通常表示为宽*高。
图像/视频宽高比: 单地描述了图像或像素的宽度和高度之间的比例关系。
比特率: 播放一段视频每秒所需的数据量，比特率 = 宽 * 高 * 颜色深度 * 帧每秒。例如，一段每秒 30 帧，每像素 24 bits，分辨率是 480x240 的视频，如果我们不做任何压缩，它将需要 82,944,000 比特每秒或 82.944 Mbps (30x480x240x24)。当比特率几乎恒定时称为恒定比特率（CBR）；但它也可以变化，称为可变比特率（VBR）。

下面这个图形显示了一个受限的 VBR，当帧为黑色时不会花费太多的数据量。

1.1，颜色亮度和我们的眼睛

因为人眼睛的视杆细胞（亮度）比视锥细胞多很多，所以一个合理的推断是相比颜色，我们有更好的能力去区分黑暗和光亮。

我们的眼睛对亮度比对颜色更敏感，可以看看下面的图片来测试。

看不出左图的方块 A 和方块 B 的颜色是相同的，那是因为我们的大脑玩了一个小把戏，这让我们更多的去注意光与暗，而不是颜色。右边这里有一个使用同样颜色的连接器，那么我们（的大脑）就能轻易分辨出事实，它们是同样的颜色。

二，视频编码的实现原理

2.1，视频编码技术概述

编码的目的是为了压缩，所谓编码算法，就是寻找规律构建一个高效模型，将视频数据中的冗余信息去除。

常见的视频的冗余信息和对应的压缩方法如下表：

种类	内容	压缩方法
空间冗余	像素间的相关性	变换编码，预测编码
时间冗余	时间方向上的相关性	帧间预测，运动补偿
图像构造冗余	图像本身的构造	轮廓编码，区域分割
知识冗余	收发两端对人物共有认识	基于知识的编码
视觉冗余	人对视觉特性	非线性量化，位分配
其他	不确定性因素

视频帧冗余信息示例如下图所示：

2.2，帧类型

我们知道视频是由不同的帧画面连续播放形成的，视频的帧主要分为三类，分别是（1）I 帧；（2）B 帧；（3）P 帧。

I 帧（关键帧，帧内编码）: 是自带全部信息的独立帧，是最完整的画面（占用的空间最大），无需参考其它图像便可独立进行解码。视频序列中的第一个帧，始终都是I帧。
P 帧（预测）: “帧间预测编码帧”，需要参考前面的I帧和/或P帧的不同部分，才能进行编码。P帧对前面的P和I参考帧有依赖性。但是，P帧压缩率比较高，占用的空间较小。
B 帧（双向预测）: “双向预测编码帧”，以前帧后帧作为参考帧。不仅参考前面，还参考后面的帧，所以，它的压缩率最高，可以达到200:1。不过，因为依赖后面的帧，所以不适合实时传输（例如视频会议）。

对 I 帧的处理，是采用帧内编码（帧间预测）方式，只利用本帧图像内的空间相关性。

对 P 帧的处理，采用帧间编码（前向运动估计），同时利用空间和时间上的相关性。简单来说，采用运动补偿(motion compensation)算法来去掉冗余信息。

2.3，帧内编码（帧内预测）

帧内编码/预测用于解决单帧空间冗余问题。如果我们分析视频的每一帧，会发现许多区域是相互关联的。

举个例子来理解帧内编码，如下图所示的图片，可以看出这个图大部分区域颜色是一样的。假设这是一个 I 帧 ，我们即将编码红色区域，假设帧中的颜色在垂直方向上保持一致，这意味着未知像素的颜色与临近的像素相同。

这样的先验预测虽然会出错，但是我们可以先利用这项技术（帧内预测），然后减去实际值，算出残差，这样得出的残差矩阵比原始数据更容易压缩。

2.4，帧间编码（帧间预测）

视频帧在时间上的重复，解决这类冗余的技术就是帧间编码/预测。

尝试花费较少的数据量去编码在时间上连续的 0 号帧和 1 号帧。比如做个减法，简单地用 0 号帧减去 1 号帧，得到残差，这样我们就只需要对残差进行编码。

做减法的方法比较简单粗暴，效果不是很好，可以有更好的方法来节省数据量。首先，我们将0 号帧 视为一个个分块的集合，然后我们将尝试将 帧 1 和 帧 0 上的块相匹配。我们可以将这看作是运动预测。

运动补偿是一种描述相邻帧（相邻在这里表示在编码关系上相邻，在播放顺序上两帧未必相邻）差别的方法，具体来说是描述前面一帧（相邻在这里表示在编码关系上的前面，在播放顺序上未必在当前帧前面）的每个小块怎样移动到当前帧中的某个位置去。”

如上图所示，我们预计球会从 x=0, y=25 移动到 x=7, y=26，x 和 y 的值就是运动向量。进一步节省数据量的方法是，只编码这两者运动向量的差。所以，最终运动向量就是 x=7 (6-0), y=1 (26-25)。使用运动预测的方法会找不到完美匹配的块，但使用运动预测时，编码的数据量少于使用简单的残差帧技术，对比图如下图所示：

三，实际的视频编码器如何工作

3.1，视频容器（视频数据封装）

首先视频编码器和视频容器是不一样的，我们常见的各种视频文件名后缀：.mp4 、.mkv 、.avi 和.mpeg 等其实都是视频容器。视频容器定义：将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中，这个特定的文件类型即为视频容器。

3.2，编码器发展历史

视频编码器的发展历史见下图：

3.3，通用编码器工作流程

虽然视频编码器的已经经历了几十年的发展历史，但是其还是有一个主要的工作机制的。

3.3.1，第一步-图片分区

第一步是将帧分成几个分区，子分区甚至更多。分区的目的是为了更精确的处理预测，在微小移动的部分使用较小的分区，而在静态背景上使用较大的分区。

通常，编解码器将这些分区组织成切片（或瓦片），宏（或编码树单元）和许多子分区。这些分区的最大大小对于不同的编码器有所不同，比如 HEVC 设置成 64x64，而 AVC 使用 16x16，但子分区可以达到 4x4 的大小。

3.3.2，第二步-预测

有了分区，我们就可以在它们之上做出预测。对于帧间预测，我们需要发送运动向量和残差；至于帧内预测，我们需要发送预测方向和残差。

3.3.3，第三步-转换

在我们得到残差块（预测分区-真实分区）之后，我们可以用一种方式变换它，这样我们就知道哪些像素我们应该丢弃，还依然能保持整体质量。这个确切的行为有几种变换方式，这里只介绍离散余弦变换（DCT），其功能如下：

将像素块转换为相同大小的频率系数块。
压缩能量，更容易消除空间冗余。
可逆的，也意味着你可以还原回像素。

我们知道在一张图像中，大多数能量会集中在低频部分，所以如果我们将图像转换成频率系数，并丢掉高频系数，我们就能减少描述图像所需的数据量，而不会牺牲太多的图像质量。 DCT 可以把原始图像转换为频率（系数块），然后丢掉最不重要的系数。

我们从丢掉不重要系数后的系数块重构图像，并与原始图像做对比，如下图所示。

可以看出它酷似原图像，与原图相比，我们丢弃了67.1875%，而如何智能的选择丢弃系数则是下一步要考虑的问题。

3.3.4，第四步-量化

当我们丢掉一些（频率）系数块时，在最后一步（变换），我们做了一些形式的量化。这一步，我们选择性地剔除信息（有损部分）或者简单来说，我们将量化系数以实现压缩。

如何量化一个系数块？一个简单的方法是均匀量化，我们取一个块并将其除以单个的值（10），并舍入值。

那如何逆转（反量化）这个系数块呢？可以通过乘以我们先前除以的相同的值（10）来做到。

均匀量化并不是一个最好的量化方案，因为其并没有考虑到每个系数的重要性，我们可以使用一个量化矩阵来代替单个值，这个矩阵可以利用 DCT 的属性，多量化右下部，而少（量化）左上部，JPEG 使用了类似的方法，我们可以通过查看源码看看这个矩阵。

3.3.5，第五步-熵编码

在我们量化数据（图像块／切片／帧）之后，我们仍然可以以无损的方式来压缩它。有许多方法（算法）可用来压缩数据：

VLC 编码
算术编码

3.3.6，第六步-比特流格式

完成上述步骤，即已经完成视频数据的编码压缩，后续我们需要将压缩过的帧和内容打包进去。需要明确告知解码器编码定义，如颜色深度，颜色空间，分辨率，预测信息（运动向量，帧内预测方向），档次*，级别*，帧率，帧类型，帧号等等更多信息。

参考资料

文章首发于 github。本人水平有限，文章如有问题，欢迎及时指出。如果看完文章有所收获，一定要先点赞后收藏。毕竟，赠人玫瑰，手有余香。最后，更多面经和干货文章，欢迎关注我的公众号-嵌入式视觉!

一文搞 strong code image 视频编码 I帧 P帧图片分辨率帧内编码深度学习人工智能yyds干货盘点

有关一文搞懂视频编解码原理的更多相关文章

动漫制作技巧如何制作动漫视频 - 2
动漫制作技巧是很多新人想了解的问题，今天小编就来解答与大家分享一下动漫制作流程，为了帮助有兴趣的同学理解，大多数人会选择动漫培训机构，那么今天小编就带大家来看看动漫制作要掌握哪些技巧？一、动漫作品首先完成草图设计和原型制作。设计草图要有目的、有对象、有步骤、要形象、要简单、符合实际。设计图要一致性，以保证制作的顺利进行。二、原型制作是根据设计图纸和制作材料，可以是手绘也可以是3d软件创建。在此步骤中，要注意的问题是色彩和平面布局。三、动漫制作制作完成后，加工成型。完成不同的表现形式后，就要对设计稿进行加工处理，使加工的难易度降低，并得到一些基本准确的概念，以便于后续的大样、准确的尺寸制定。四、
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
TimeSformer：抛弃CNN的Transformer视频理解框架 - 2
Transformers开始在视频识别领域的“猪突猛进”，各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解，本篇主要介绍了FBAI团队的TimeSformer，这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用，就请点赞、收藏、关注！paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图
ruby - 如何更改此正则表达式以从未指定 v 参数的 Youtube URL 获取 Youtube 视频 ID？ - 2
目前我正在使用这个正则表达式从YoutubeURL中提取视频ID:url.match(/v=([^&]*)/)[1]我怎样才能改变它，以便它也可以从这个没有v参数的YoutubeURL获取视频ID:http://www.youtube.com/user/SHAYTARDS#p/u/9/Xc81AajGUMU感谢阅读。编辑:我正在使用ruby1.8.7 最佳答案对于Ruby1.8.7，这就可以了。url_1='http://www.youtube.com/watch?v=8WVTOUh53QY&feature=feedf'url
一文解决关于VLAN所有的疑惑 - 2
一文解决关于VLAN所有的疑惑VLAN基本概念为什么需要VLAN？怎么在交换机上划分VLAN，VLAN的工作原理有了子网，已经隔离了广播，还需要VLAN干啥？只进行子网划分，不进行VLAN划分VLAN划分与子网划分附加VLAN信息的方法VLAN划分交换机的端口类型（Access和Trunk）一、访问链接二、汇聚链接汇聚链接VLAN间通信为什么要进行VLAN间通信？路由器实现VLAN间通信路由器和交换机的连接方式通信细节三层交换机实现VLAN间通信加速VLAN间通信三层交换机与路由器三层交换机路由器路由器和交换机配合构建LAN的实例使用VLAN设计局域网的特点VLAN增加网络的灵活性不使用VLA
【Unity游戏破解】外挂原理分析 - 2
文章目录认识unity打包目录结构游戏逆向流程Unity游戏攻击面可被攻击原因mono的打包建议方案锁血飞天无限金币攻击力翻倍以上统称内存挂透视自瞄压枪瞬移内购破解Unity游戏防御开发时注意数据安全接入第三方反作弊系统外挂检测思路狠人自爆实战查看目录结构用il2cppdumper例子2-森林whoishe后记认识unity打包目录结构dll一般很大，因为里面是所有的游戏功能编译成的二进制码游戏逆向流程开发人员代码被编译打包到GameAssembly.dll中使用il2ppDumper工具，并借助游戏名_Data\il2cpp_data\Metadata\global-metadata.dat
ruby-on-rails - JSON解码参数问题 - 2
我有一个使用postgresql的Rails4应用程序。我还有一个backbone.js应用程序，可将JSON推送到Rails4应用程序。这是我的Controller:defcreate@product=Product.new(ActiveSupport::JSON.decodeproduct_params)respond_todo|format|if@product.saveformat.json{renderaction:'show',status::created,location:@product}elseformat.json{renderjson:@product.erro
一文让你彻底掌握操作符（超详细教程） - 2
✅作者简介：大家好，我是小杨📃个人主页：「小杨」的csdn博客🔥系列专栏：小杨带你玩转C语言【初阶】🐳希望大家多多支持🥰一起进步呀！大家好呀！我是小杨。小杨花几天的时间将C语言中的操作符这部分知识做了一个大总结，在方便自己复习的同时也能够帮助到大家。通篇字数在一万字左右，可以算作是非常详细了，一文就可以带领大家彻底掌握操作符这部分内容，文章很长建议先收藏再看，防止下次想看就找不到啦。文章目录✍1，算术操作符✍2，移位操作符 🔍2.1,左移操作符 🔍2.2,右移操作符 ✨2.2.1,算术移位 ✨2.2.2,逻辑移位✍3，位操作符 🔍3.1,按位与&
续集来了丨UI自动化测试（二）：带视频，实在RPA高效进行web项目UI自动化测试 - 2
一、什么是web项目ui自动化测试？通过测试工具模拟人为操控浏览器，使软件按照测试人员的预定计划自动执行测试的一种方式，可以完成许多手工测试无法完成或者不易实现的繁琐工作。正确使用自动化测试，可以更全面的对软件进行测试，从而提高软件质量进而缩短迭代周期。二、构建测试用例的“九部曲”（一）创建流程包划分功能模块日常测试活动中，都会根据功能模块进行拆分，所以在设计器中我们可以通过创建流程包的方式来拆分需要测试的功能模块，如下图中操作创建一个电脑流程包并且取名为对应的功能模块名称，如果有多个功能模块就创建多个对应的流程包，实在RPA设计器有易用的图形可视化界面，方便管理较多的功能模块。（二）在流程包
Slowloris DoS攻击的原理与简单实现 - 2
前言 Slowloris攻击是我在李华峰老师的书——《MetasploitWeb 渗透测试实战》里面看的，感觉既简单又使用，现在这种攻击是很容易被防护的啦。不过我也不敢真刀实战的去试，只是拿个靶机玩玩罢了。废话还是写在结语里面吧。（划掉）结语可以不看（划掉）Slowloris攻击的原理 Slowloris是一种资源消耗类DoS攻击，它利用部分HTTP请求进行操作。也叫做慢速攻击，这里的慢速并不是说发动攻击慢，而是访问一条链接的速度慢。Slowloris攻击的功能是打开与目标Web服务器的连接，然后尽可能长时间的保持这些连接打开。如果由多台电脑同时发起Slo