用 AI 打破编解码器内卷，高通全新顶会毕业论文脑洞大开

加载中

用 AI 搞视频编解码器，如今门路有点儿“野”。

插帧、多重共线性、词义认知、GAN…… 你要过这种“脑洞大开”或 AI 优化算法，也可以被使用编解码器上边吗？

比如，本来的优化算法每帧压缩到 16.4KB 后，山林逐渐越来越极其模糊不清：

但在使用上 GAN 后，不但界面更清楚，每帧图象还更变小，只必须 14.5KB 就能拿下！

又比如，用插帧的构思融合神经系统编解码器，能让全新压缩优化算法实际效果更强……

这一系列优化算法的构思，身后到底是啥基本原理，用 AI 搞编解码器，发展潜力到底有多大？

大家专访了高通工程设计高级副总裁、高通 AI 研究内容责任人侯纪磊博士研究生，了解了高通一些 AI 编解码器中的优化算法关键点和基本原理。

编解码器规范慢慢“内卷”

自然，在掌握 AI 优化算法的基本原理以前，必须先掌握视频到底是如何压缩的。

如果不压缩，1 秒 30 帧、8bit 多通道色深的 480p 视频，每秒钟就需要传送 80 Mbps 数据信息，想在网络上即时看超清视频得话，基本上是不太可能的事儿。

现阶段，关键有饱和度子取样、帧内预测分析（室内空间沉余）和帧间预测分析（時间沉余）好多个方面的压缩方式。

饱和度子取样，主要是根据大家双眼对光亮度对色调更灵敏的基本原理，压缩图象的颜色数据信息，但視覺上依然能维持与原照贴近的实际效果。

帧内预测分析，运用同一帧中的大面积同样图形（下面的图木地板等），预测分析图象内邻近清晰度的值，得到的結果比原始记录更非常容易压缩。

帧间预测分析，用于清除邻近帧中间很多相同数据信息（下面的图的环境）的方式。运用一种名字叫做运动补偿的方式，用健身运动空间向量（motion vector）和估计值测算两帧中间清晰度差：

这种视频压缩的方式，实际到视频编解码器上，又有许多压缩工作中能够开展，包含系统分区、量化分析、熵编号等。

殊不知，据侯纪磊博士研究生详细介绍，从 H.265 到 H.266，压缩性能尽管提高了 30% 上下，但这也是随着编号复杂性提升 30 倍、编解码复杂性提升 2 倍达到的。

这代表着编解码器规范慢慢进入了一个“内卷”的情况，提高的压缩实际效果，实质上是用编解码器复杂性来互换的，并不是真真正正完成了自主创新。

因而，高通从已经有压缩方式实际上的基本原理、及其编解码器的结构下手，搞出了几类有趣的 AI 视频编解码方式。

3 个方位提高压缩性能

从总体上，现阶段的 AI 科学研究包含帧间预测分析方式、减少编解码复杂性和提升压缩品质三个方位。

“预测了 B 帧的预测”

从帧间预测分析看来，高通对于 B 帧编解码明确提出了一种新理念，毕业论文早已走上 ICCV 2021。

I 帧：帧内编号帧（intra picture）、P 帧：前向预测分析编号帧（predictive-frame）、B 帧：双重预测分析内插编号帧（bi-directional interpolated prediction frame）

现阶段的编解码大多数聚集在 I 帧（帧内预测分析）和 P 帧上，而 B 帧则是与此同时运用 I 帧和 P 帧的双重运动补偿来提高压缩的性能，在 H.265 中正式步枪适用（H.264 沒有）。

尽管用上 B 帧后，视频压缩性能更强，但或是有两个难题：

一个是视频必须提早载入（务必提早编号后边的 P 帧，才可以获得 B 帧）；另一个是依然会存有沉余，假如 I 帧和 P 帧相对高度有关，那麼再用双重运动补偿就变得很消耗。

举个例子，假如从 I 帧→B 帧→P 帧，视频中只有一个球匀速直线运动了一段距离，那麼再用双重运动补偿得话，便会很消耗：

这类情形下，用插帧好像更强，立即根据时间格式就能推算出物件活动的情况，编号测算量也更低。

但这又会产生新的难题：假如 I 帧和 P 帧中间有一个十分大的基因突变，比如球忽然在 B 帧弹上来了，此刻用插帧的功效就很差了（等同于立即忽视了 B 帧的跳跃）。

因而，高通挑选将二者融合起來，将根据神经网络算法的 P 帧压缩和插帧赔偿融合起來，运用 AI 预测分析插帧后必须完成的运动补偿：

不要说，实际效果还的确非常好，比Google以前在 CVPR 2020 上保证的 SOTA 记录更强，也需要好于当今根据 H.265 规范完成开源系统编解码器的压缩性能。

此外，高通也来尝试了一些别的的 AI 优化算法。

用“多重共线性”减少编解码复杂性

对于编解码器规范内卷的状况，高通也想起了用 AI 做响应式优化算法，来像“多重共线性”一样依据视频比特流升级一个实体模型的权重值增加量，早已有有关毕业论文走上 ICLR 2021。

这类方式代表着对于单独实体模型开展“多重共线性”，对比特流中的权重值增加量开展编号，再与原先的比特流开展一个较为。假如实际效果更强得话，就选用这类传输技术。

事实上，在没有减少压缩性能的情形下，这类办法能将编解码复杂性减少 72%，与此同时依然维持以前 B 帧实体模型做到的 SOTA 結果。

自然，除开视频压缩性能之外，单帧图象被压缩的品质也必须考虑到，终究视觉冲击也是视频压缩追求完美的规范之一。

用词义认知和 GAN 提升压缩品质

用词义认知和 GAN 的策略就非常简单了。

词义认知便是让 AI 根据人的视觉效果来考虑到，挑选出你一直在看视频时最关心的地区，并主要那一部分的比特犬分配原则。

比如你一直在看网球赛时，通常并不会关心赛事边上的观众们长什么样、景色怎样，只是更关心足球运动员自身的姿势、发球方式等。

那麼，就练习 AI，将大量的比特犬放进总体目标角色的身上就可以了，像这种：

从构造上来说也非常简单，也就是大家常用的语义分割 Mask（掩膜）：

这类办法能非常好地将受关心的部分地区帧品牌提升，使我们有更强的欣赏实际效果，而不是在视频被压缩时，见到的整副图象全是“打上马塞克”的模样。

据高通表明，这类词义认知的图象压缩，现阶段早已在拓展到视频压缩上，一样是关心部分的方式，实际效果也特别非常好。

而根据 GAN 的方式，则更为专注于用很少的比特犬数转化成视觉冲击一样好的图象品质：

据高通表明，数据来源于 CVPR 中一个对于图象压缩的 Workshop CLIC，给予了大概 1600 张的高清图，运用自主研发的实体模型，能在上面练习出不错的实际效果：

也就是开始的照片实际效果，即便在尺寸被压缩后，根据 GAN 的图象或是能获得更快的视觉效果品质：

希望这种技术性能立刻运用到手机上等设施上，使我们看视频的情况下真真正正越来越流畅。

评论（0条）

更多推荐文章

标签云

一个专业的免费源码资源互联网分享平台

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

刀客源码｜友链申请｜广告合作｜免责声明｜联系我们｜网站地图

Copyright © 2018-2023 刀客源码网版权所有皖ICP备2022001723号-1