失真对编码性能的影响研究

四川省超高清视频产业

新闻来源: 四川省超高清视频产业联盟

查看次数:1411

发布日期:2021-12-22

来源：SPIE2021
主讲人：Varoun Hanooman
内容整理：王珅
本次演讲主题为不同失真对视频压缩性能的影响，近几年来视频流的技术环境发生了巨大的变化，互联网上的视频流量急剧增加。这也使得人们对视频流和实时视频通信应用中的视频压缩的比特率与质量之间的权衡产生更大的兴趣。而不同的失真类型对这一权衡的影响在此之前并没有被系统的评估过。主讲人介绍了一种方法来衡量视频压缩过程中各种失真（噪声、颗粒、闪烁、晃动）的影响。结果表明，噪声/颗粒对编解码器的性能影响最大，但目前的编解码器对这一类失真鲁棒性更强。此外，主讲人介绍了预处理模块对去噪的影响，指出在开发和测试中，将去噪作为视频压缩流水线的一部分能够更加有效的去噪。

引言
评估失真影响的方法
视频序列失真建模

加性高斯白噪声
颗粒噪声
相机抖动
闪烁

失真对视频压缩性能影响结果
预处理器的作用效果
结论
引言

近几年来，视频流的技术环境发生了巨大的变化，互联网上的视频流量急剧增加。根据 Cisco 公司的报告的预测，视频流量将超过整个互联网使用量的 80%。这也使得人们对视频流和实时视频通信应用中的视频压缩的比特率与质量的权衡关系产生了更大的兴趣。然而这些编解码器在实际系统中的实际部署表明，还有其他考虑因素进一步限制了编解码器的性能，例如设备上的资源、云中的计算资源和 CDN（内容交付网络）中不同服务器之间的带宽。尤其是转码已经成为流媒体和通信生态系统的一个关键设备，使 Netflix、YouTube、Zoom、微软、Tiktok 和 Facebook 的视频应用成为可能。用户生成内容（UGC）的流媒体的一个主要问题是失真的影响，如噪音、曝光/光线和相机抖动。对于 UGC，这些失真通常会导致比特率提高，图片质量降低。

自 20 世纪 90 年代以来，人们一直在探索预处理模块，以减轻退化的影响。Roosmalen 等人是第一个研究降噪器对 MPEG-2 压缩的影响。他们还注意到，在某些比特率下，编码器本身就有效地起到了去噪器的作用。从某种意义上说，混合编解码器中变换系数的量化非常像许多视频去噪器中的 "coring "操作。最近也出现了与编解码器更紧密结合的预处理器。

尽管在预处理方面做了大量的工作，但一般用户生成内容中不同失真对编解码器RD性能的影响似乎还没有被完整研究过。主讲人介绍了在用户生成内容中容易出现的不同失真对编码的影响。包括：加性白高斯噪声（AWGN）、颗粒噪声、相机抖动和闪烁。主讲人提出了一种评估失真对RD性能影响的方法，并验证对于某些失真情况，编解码器本身就是一个有效的失真恢复系统。下面主讲人介绍了提出的方法和失真模型。

评估失真影响的方法

如下图所示，原视频为 Clean Video，经过编解码器后得到转码之后的视频序列 ?(I)。对原视频 Clean Video 加入失真之后得到模拟的 UGC 视频序列，称之为 G ，G 经过编解码器后得到转码后的 UGC ?(G)，也就是带有失真的视频。

图 1 进行失真影响评估的视频处理过程

在传统的压缩流水线的率失真（RD）分析中，我们一直在研究图 1 的下半部分分支。这表示 UGC 视频序列在恒定比特率或恒定质量下使用特定的编解码器进行压缩。一般我们会使用视觉质量指标，如PSNR、视频多方法评估融合（VMAF）来衡量整个编解码器的性能，即 ?(G) w.r.t. G。在这种情况下，质量指标反应了编码器的输出和输入之间的性能，也就是说高分数表明输出与输入是非常相似的。然而，在 UGC 的情况下，这会产生误导，因为 UGC 的输入代表了在某种程度上已经叠加了噪声或者其他失真的数据。例如，高 PSNR 可能意味着大量的高频噪声被保留下来。因此高 PSNR 不一定意味着得到了高质量的视频序列。相反，低 PSNR 似乎表明输出质量低，然而编解码器可能像一个低通滤波器，可能会滤除高频噪声，因此输出的质量反而比输入的更好。

因此我们通过以图 1 上半部分分支的输入 Clean Video 作为 anchor 进行参数测量。图 1 中的噪声包括：加性高斯白噪声（AWGN）、颗粒、闪烁、抖动。因此这种处理方法实现了衡量编解码器输出相对于原始没有叠加噪声的信号的性能，这在现实中是无法观察到的。

图2展示了这种处理方法所得到的信息的一个例子。水平红色虚线为图 1 中叠加失真的输入信号 G 的PSNR。它测量的是添加到原始信号 I 上的噪声级别，G 的质量水平为 35dB。它只显示为一个参考水平，不随比特率的变化而变化。与 Clean Video 信号相比，?(I) 为不叠加失真情况下的 RD 性能，也即 RD 性能的上限；?(G) 为叠加失真之后，转码后的UGC视频序列的 RD 性能。可以看到，实际上仅编解码器就能提高所有比特率下的信号质量，还表明，在这个比特率范围内，?(G) 完全没有倾向 G 质量水平的趋势。

图 2 RD 曲线

视频序列失真建模

主讲人介绍他们考虑 4 种不同的常见失真情况：噪声、颗粒、闪烁和抖动。他们对 AWGN 和颗粒噪声进行了区分，因为 AWGN 几乎从未在真实图像中观察到，尽管它是去噪学术论文中使用的主要失真现象。闪烁指的是我们在室内人工照明下经常观察到的亮度波动，是体育赛事以及 UGC 中面临的一个问题。抖动是一个常见的 UGC 失真情况，我们考虑旋转和平移的抖动。

假设第 n 个原始帧为，其中是第 n 帧中点 x=[h, k] 的像素值，对叠加失真的转码帧进行建模，如下所示。

上式 1 中表示第 n 帧的平移抖动，为合成旋转抖动的旋转矩阵，是模拟闪烁失真的系数，是加性噪声。

加性高斯白噪声

加性白高斯噪声是去噪研究中使用最多的失真，尽管在真实场景中并不常见。为了产生噪声，我们为G设定了一个目标PSNR，如下所示：

其中为的方差（零均值）。假设给定目标 PSNR 为 p dB，则可得

。

加性高斯白噪声模拟参数为：，，，

颗粒噪声

与 AWG N噪声相比，颗粒噪声也被称为电影颗粒，在实际视频序列中非常常见。按照 A. C. Kokaram 和 N. Birkbeck 等人的说法，噪声颗粒可以由自回归（AR）模型来模拟的。为了合成胶片颗粒，我们需要估计现实中胶片颗粒的 AR 系数。我们选择从 4 部智能手机上估计胶片颗粒；iPhone 11、三星 Galaxy A21、华为 P20 Pro和一加 6T。在一个可控环境中，我们在相同的位置和灯光下录制视频序列。从这些视频中的每一帧中提取出一个 64x64 的平滑亮度块 Y，用于建模。对于 2DAR(1)模型，我们可以用以下预测公式对块进行建模。

其中为模型系数，

上式的2DAR预测方程将每个颗粒像素建模为邻域像素的线性组合（线性系数a），再加上一个噪声分量。同样，颗粒噪声模型，，。

相机抖动

摄像机的抖动通过旋转R和平移d来表示，旋转矩阵定义如下：

为了模拟真实的相机晃动，首先生成均匀分布 ,，然后从中随机收取 d 和 R，这里和分别是旋转和位移的最大幅度，在这里，我们不把抖动与加性噪声结合起来，即在这种情况下，μ=0。

闪烁

利用一个 50Hz 的荧光灯作为光源模拟闪烁。将正弦波的频率表示为。摄像机的帧速率为 r fps，这决定了记录的闪烁的数量和类型，因为这个速率决定了 50Hz 信号的采样。闪烁通过式 1 中的乘法项表示，计算如下：

其中 L 是闪烁增益的大小，是一个相位偏移项，这对于模拟真实的拍摄条件非常必要，因为摄像机和光源通常不是同相位的。

下表展示了所有用于测试各种 UGC 模拟的参数情况：

表 1 失真测试列表

失真对视频压缩性能影响结果

下图 3 显示了旋转抖动对于VP9编解码器在两个质量指标 PSNR 和 VMAF 下的结果。随着旋转程度的增加，G 和 ?(G) 的质量都如预期般降低。UGC 转码后的质量随着比特率的增加而接近退化的质量。转码后的 UGC 质量略好于降级信号。这种影响在 VMAF 中比 PSNR 更突出。这种影响在平移抖动中进一步得到强调。在所有的比特率中，我们看到了轻微的改善，这表明编解码器似乎在某种意义上起到了轻微的稳定器作用。

图 3 旋转和平移抖动对 RD 曲线的影响

图4显示了闪烁对 VP9 编解码器在 PSNR 和 VMAF 方面的结果。我们观察到，该编解码器对闪烁的应对能力很差。增加闪烁度（从 L=0.02 到 L=0.1）会导致 PSNR 和 VMAF 得分降低。这种趋势在使用 H.265 编解码器时也会出现。我们注意到，随着比特率的增加，?(G) 的质量和预期的一样，会逐渐接近 G。然而，在较低的劣化水平 L<0.04 时，即使在 6Mbps 时，质量也明显低于输入 UGC 信号 G 的质量。?(G) 和 G 的质量之间的差异表明，预处理器在处理伪影方面有重要作用。

图 4 闪烁对 RD 曲线的影响

图 5 展示了使用 PSNR 比较 H.265、VP9 在 AWGN 和颗粒噪声下的结果。左边一栏显示了 AWGN 下的 VP9 和 H.265，右边显示了颗粒对相同编解码器的影响。H.265 和 VP9的观察结果是相似的。在低劣化水平下（44，48dB），?(G) 的质量比 UGC G 的质量差。然而在高劣化水平下（30，35，40dB）编解码器能够作为一个去噪器，使得整个比特率范围内的质量提高。对于 AWGN 和 Grain 来说，这种增长高达 5dB，2dB。但我们注意到，对于 AWGN 来说，去噪器的效果似乎在 2-3Mbps 时达到顶峰（30dB衰减），对于 Grain 来说，3-4Mbps（35dB 衰减）。在所有情况下，所有退化类型的 RD 性能都比 ?(I) 的性能差。编解码器会去除信号中的高频成分，因此，当这种退化处于较高水平时，PSNR 得到了改善。当退化程度较低时，编解码器的去噪效果不足以补偿由噪声数据的速率控制压缩造成的误差。

图 5 高斯白噪声和颗粒噪声对 RD 曲线的影响

预处理器的作用效果

前面的实验表明，?(I) 的质量与转码后的 UGC 之间仍有很大差距。因此，典型的做法是考虑使用预处理器来提高输入质量。我们用来表示去噪器的输出，因为在理想情况下，它将输出 I，即原始信号。因此，经过转码、预处理的 UGC 信号是?()。

图 6 加入去噪器之后进一步评估失真影响

图 7 给出了一个例子：序列（videoSRC11_1280x720_30）中裁剪的原始图像 I。图中还给出了带有 35dB AWGN 的退化信号 G，以及去噪后的信号和转码后的 UGC ?(G) 和 ?()，速度为 6 Mbps。这个例子表明，去噪器的作用是正常的，去噪和转码后的信号确实含有较少的噪声，但模糊的数量有所增加。与没有预处理 ?(G) 的转码 UGC 相比，可以看出有预处理 ?()的编解码器输出使模糊更严重。

图 7 主观结果

下图 8 中通过 RD 曲线说明了后续观察结果，原视频转码式 RD 性能的上限，转码前的失真信号（即模拟的UGC）在图中处于最低点，我们看到转码前的预处理视频的质量比噪声 UGC 高 1dB。然而，令人惊讶的是，未经预处理的转码 UGC 的质量实际上比相应的转码预处理信号高。这可以归因于在这种情况下预处理器造成的模糊。这可以从图 7 中直观地看到。

这一点表明，在压缩处理的背景下，去噪器的性能可以有很大的改变。VMAF 强调了在这种情况下由去噪器引起的模糊效果。总体观察结果是相同的，即有噪声的转码视频比预处理的转码视频质量更高。在细节上，退化视频的 VMAF 质量得分现在比去噪视频的 VMAF 质量得分好。这表明：模糊对整个视频质量产生不好的影响。

图 8 加入去噪器之后高斯白噪声和颗粒噪声对 RD 曲线的影响

结论

这项关于不同失真对压缩性能影响的研究得出的结果证实了业界已知的分析，但也提出了新的特点。编解码器实际上可以在一定程度上减少失真，但对抖动和闪烁的影响明显小于对噪声/颗粒的影响。此外，我们观察到，编解码器的去噪行为取决于压缩的比特率以及失真的等级和程度。在开发和测试过程中，将去噪作为处理流程的一部分来进行会有更好的效果。

文章来源：媒矿工厂