来源:SPIE2021:Panel Discussion
翻译:钟宏成
摘要:目前,有史以来最广泛的视频编解码器可用于规模达 2000 亿美元的视频服务行业,包括广播、流媒体和其他服务:MPEG-2、MPEG-4、AVC、HEVC、VVC、VP8、VP9、AV1、EVC 和 LCEVC。虽然这些编解码器在市场上争夺流媒体份额,但消费者肯定会从低费率的先进服务中受益。同时,这对开发者和服务提供者来说是一个具有挑战性的环境。
在这个小组中,我们将探讨这些技术所带来的消费者服务的广度,包括高分辨率 4K、8K,以及 HDR 和 AR/VR:
这些最终是否会起飞并实现其承诺? 4K HDR 的 HEVC 将成为广播/流媒体的新规范吗? 8K 是否是电视、甚至电脑、平板电脑和智能手机等消费设备的终点? 视频编码还能走多远?
讨论问题如下:
Q: 预计 H.264 的衰落和这些新编解码器的兴起需要多久?你能预测哪个编码器会替代它吗?
Q: VVC 和 AV1 什么时候才能真正超过 30% 的使用率?以及最终将启用哪些应用?
Q:视频编码还能走多远?
参加本次小组讨论的有:
Pankaj Topiwala, FastVDO CEO, Alan C. Bovik, University of Texas, Benjamin Bross, Fraunhofer HHI, Kiho Choi, Gachon University, Edouard François, InterDigital, Michael Horowitz, Google, Jan Ozer, Streaming Media, Gary J. Sullivan, Microsoft.
在信息时代,网络带宽作为一种新的资源已经开始与传统的化石能源资源相媲美。在我们的视听世界中,视频现在占据网络流量的 80%,根据思科公司的预测,到明年将达到 82%。视频压缩显然是最基本的工具,它不为公众所知,但实际上,它是我们信息时代的重要推动者之一。随着视频在我们日常生活中的使用越来越多,它的作用在可预见的未来只会呈指数级增长。所以我们今天谈论的技术不仅仅是社会角落里的一些深奥的东西,我们不仅现在在使用它们,而且人们在过去一年半的时间里一直在这种 COVID 大流行下使用它们处理日常事务,或与亲人交谈。
不仅视频占网络流量的 80%,尽管实际上有几十个编解码器,这些流量的 80% 实际上在一个编解码器中。该编解码器是 2003 年标准化的 H.264,现在已经 18 岁了,它即将迎来它的 20 岁生日。同时,我们有 VP9、H.265、AV1、H.266 和 EVC baseline 和 main 两个版本,LCEVC,AV2 已经在开发中。基于神经网络的编解码器尚未标准化,但已经在该领域进行了测试并准备好进一步发展。所以我们有大量的编解码器,但一个 18 岁的编解码器仍然占主导地位。从这个角度来看,我们觉得很容易想到,由于这些新编解码器的效率至少是 H.264 的三倍,可能接近四倍,因此切换到一个新的编解码器可以节省数十亿美元的网络带宽。
Q: 预计 H.264 的衰落和这些新编解码器的兴起需要多久?你能预测哪个编码器会替代它吗?
Benjamin: 我认为仅仅说某个编解码器替换 H.264 可能太简单了——所以我的预测是可能并非如此。H.265 的部署仍在上升,然后其他编解码器比如 AV1 也在一些设备中,所以这就是为什么我不认为一个编解码器会取代它。我能看到的是,H.265 仍然得到越来越多的部署,它是逐渐的过程,当第一批 VVC 设备上市时,我们会看到会出现什么。现在已经有软件供人们试用。
Kiho: 我个人的预测是 H.264 仍将是未来五年互联网服务中最常用的编解码器。 因为 H.264 仍然广泛用于基于互联网的应用程序,例如离线流媒体或在线流媒体。因此,这需要对市场进行重大改变。但正如 Benjamin 提到的,鉴于 HEVC 传播到编码应用程序的速度,我认为可能在五年后 HEVC 将取代 H.264。
Edouard: 因为你提到了杰文斯悖论,这确实是我们在视频分发和视频消费方面面临的关键问题。只要你改进技术,它就会得到越来越广泛的应用。即使你在几年后转向性能更高的解决方案,它也被广泛使用并且带宽已完全饱和。 关于这个关于 AVC 替换的问题,我会说转向新技术是有意义的,但正如 Kiho 提到的,这里也有很多惯性,因为已经为 AVC 开发了基础设施。所以很难说在短期内,我们会转向另一种技术和另一种编解码器。
Alan: 我不会对 VVC、EVC、LCEVC 与 AOM 人员的努力做出任何预测。我认为它们可以共存,我认为这也是朝着共存方向迈出的一步。我认为考虑深度架构是非常令人兴奋的,但这不是近期的,那是远期,我认为这是两个周期。我不知道 Gary 是否同意我的观点,人们正在考虑,但有很多问题。您如何将其放入所有这些设备中,这些设备处理所有传统方法以及使用的一些新定义方法,虽然您不需要 GPU 来运行算法,但仍然有很大不同。
Michael: 我正在开发低码率应用,在我一直研究的应用生态中,至少在我加入谷歌后的最近三四年里,我没有看到很多 H.264/AVC。主要是 VP8、VP9、AV1、HEVC,这些是我主要看到的,尤其是在移动领域。我对谷歌所说的下一个十亿用户非常感兴趣。由于网络限制或网络成本而无法访问视频通话的用户,带宽非常低。当我说非常低时,我说的速度远低于每秒 100 KB。我很高兴看到新的编解码器,在这些非常非常低的比特率下工作得非常好。尽管这是我的理解,而且我已经有一段时间没有参加标准会议了,但是常见的测试条件很少有 QVGA 分辨率。对于视频,不包括协议和音频的开销,在 QVGA 320P@15fps 下实现每秒 15 到 50 KB 的视频视频传输。
Pankaj: 所以我们过去直到现在用于音频的比特率,现在您正在尝试传输视频。棒极了!你知道这一点,所以我们应该在一开始就为可能在场的非专家澄清。高级压缩可让您以高比特率实现出色的分辨率和出色的新服务,同时还支持在低比特率下无法实现的全新服务。 因为你以前做不到 20 KB 的视频,也就是不可能用 H.264 做到这一点。现在能做到,这很令人兴奋。
Jan: 我看到市场将分为三个不同的市场。我认为浏览器将由 AV1 主导,客厅将由 HEVC 主导。正如其他几位小组成员在短期内所说的那样,展望未来,我不知道我们是否会继续看到双重发展:可能是 AV1 也可能是 VVC 成为广播编解码器,这取决于硬件实现。我认为最大的战斗将是 AV1 和 VVC,LCEVC 也有可能参与进来。
Gary: 关于这个话题我有几句话要说:一个是您可能不应该通过在特定编解码器上花费的比特百分比来衡量视频编解码器的使用情况,因为如果效率较低的编解码器将使用更多比特。如果一种编解码器比另一种编解码器具有 4 比 1 的压缩优势,那么如果您将 80% 的比特用于 AVC 而仅 20% 的比特用于 VVC,那么您将获得相同的两个像素,所以你不能只考虑比特数。另一件值得关注的事情是应用程序,特别是超高清视频。如果您想要超高清视频,您可能不需要 AVC,HEVC 肯定会在那里起飞。然后我会说,也许有些人不太愿意加入 HEVC 的潮流,但我认为 VVC 会阻止这种拖延的能力。VVC 的效率大约是 AVC 的三倍或四倍以上。所以如果你一直在等待,处于观望状态,我觉得这应该把你推到边缘。如果你愿意,你可以跳过一代,但你不能坐下来永远使用 AVC,除非你在一个旧的应用程序中,你必须担心很多老旧设备。编码效率损失太大了,事情会迫使你向前迈进。尽管传统上硬件开始可用需要大约三年的时间延迟。我们现在距离 VVC 的完成还有一年的时间,我想我已经看到了一个硬件公告,至少就像市场上提供的硬件 IP 核一样。但是低功耗、高容量的硬件对于人们希望看到的真正的市场渗透来说确实是必要的,这还需要一段时间,但几年后,我想你会看到很多带有 VVC 的硬件。它比 AVC 甚至 HEVC 高效得多。
Pankaj: Gary 提到的一些数字加起来不是 100,而是更多。许多用户使用的编解码器不止一种,例如,如果您要流式传输到智能手机,则必须允许使用 H.264、H.265 和 AV1 或 VP9。您必须根据用户拥有的设备允许多个编解码器。所以这就是为什么你把这些数字加起来超过 100%。现在,VVC 是新来的孩子,AV1 已经在 2018 年推出,所以它已经三年了,并且正如已经提到的那样,它已经获得了广泛的浏览器支持,在硬件方面,它已经开始获得一些硬件支持。但是 HEVC 已经出现在几乎所有现代电视上、大多数先进的智能手机,当然还有台式机和笔记本电脑,可以在软件支持下播放它们。事实上,Microsoft Windows 支持 H.265。所以在我看来,H.265 是近期最能受益的东西。所以我认为 Kiho,也许 Benjamin 可能是对的,在短期内,这些编解码器将受益于 H.265 的衰落。但是 Gary 的观点是,VVC 不会落后太多,而那些现在处于观望状态的人,现在是做出决定的时候了。
Q: VVC 和 AV1 什么时候才能真正超过 30% 的使用率?以及最终将启用哪些应用?
例如,AR、VR 最终会进入大众市场吗?他们已经很长时间处于边缘了,但它们真的会成功吗?当我们可以节省这么多带宽时。在不久的将来,我们最终不仅可以实现 4K,还可以实现 8K,甚至每只眼睛 8K,或者 16K。这些激动人心的应用何时才能真正实现?
Alan: 就头盔内的沉浸式环境而言,延迟和压缩只是限制的一般概念,但最重要的是,没有多少人能真正忍受戴这么长时间的头盔。他们只是说,我宁愿坚持使用 2D,就像 3D 电影一样。无论是否沉浸式,他们可能都不满意。我认为 VR 最大的限制因素是不符合人体工程学。在我们谈论视频之前,理想情况下每只眼睛必须是 8K。这是我认为分辨率的沉浸式环境中的限制因素。
Kiho: 我个人的预测是,人们想要使用 8K 或 HDR,但我认为人们的感觉是这还不够,所以可能不容易使用,新编解码在不久的将来触动了沉浸式媒体。实际上,我认为最好的编解码应该首先用于视频通话。因为 Michael 提到可能有人想要使用视频通话而不是仅使用 8K。如今,许多人使用视频通话进行工作,或与朋友进行一些交流等,所以也许视频通话市场扩张得非常快。在这种情况下,很快就会使用新的编解码器。
Edouard: 即使 AR、VR 应用会增加,它们的市场也永远不会与传统的 2D 视频消费相提并论。在你回家的时候,你想要放松,你只想看你的电视,享受娱乐生活:点击几个按钮,放松一下,喝啤酒,看电视。因此,市场的核心仍将是 2D 视频。由于 COVID 的情况,这里有很多应用,例如,我们看到视频会议越来越受欢迎,也有云游戏,这是一个增长很多的东西,并且在市场方面可能比 AR 和 VR 更有前景,这是我个人的看法。
Michael: 我再次谈到 AR、VR 问题,以及使用视频会议,因为它是我心中最亲近的东西,因为我们已经谈到了未来的光,过去的历史类型的事情。在过去的 20 年里,我们一直在视频会议中讨论:我们离突破这么近,每年都离突破这么近。COVID 是一个突破,我的意思是,这简直令人难以置信。我会在谷歌这里给你举一个例子。Google Meet 和 Duo 的每周通话时间增加了 45 倍。不是 45%,是 45X, 4500%,并发用户数增长 100 倍,我的意思是这简直是天文数字,而且还在继续,它一直持续到夏天。考虑到 AR、VR,我认为除了解决技术障碍之外,还必须有额外的东西,我们将不得不看到某种事件,促使我们需要这种技术才能真正成为主流。
Pankaj: 当然,我们现在正在使用的视频会议正在爆炸式地使用。毫无疑问,即使大流行结束了,视频会议也并没有结束,我怀疑视频会议和视频聊天的使用将继续以几乎相同的水平继续,因为它非常方便。只要它有效,那就太棒了。
Jan: 当涉及到其中一些 AR、VR 时,我有点像个"luddite"(糊涂虫)。我没有看到劲爆级应用,我支持 Edouard。我认为 Michael 的工作给了我们最大的机会来影响最多的人,并改善我们的生活。是的,我认为在未来五年内,迈克尔所做的事情可能会比 AR、VR 影响更多的人。而且我认为 AV1 将成为驱动它的编解码器,因为与我们将在 VVC 中看到的相比,它的版税结构要低得多,而且版税结构也不会那么混乱。它是基于软件的,以及正在开发编解码器的公司,谷歌,微软,所以我相信 AV1 用于这种主要基于浏览器的应用程序,特别是因为很多是在计算机和软件上执行的,而不是到需要硬件解码的手机。
Gary: 您在谈论免版税编解码器,也许您应该坚持使用 AVC 一段时间,因为在 H.264 的所有专利到期之前,我们还有大约两年的时间,而且我猜 MPEG 2 已经免版税了。除此之外,我想我在沉浸式应用程序上的观点与 Alan 一致,沉浸式应用的瓶颈不一定是编解码器。我们将推动应用程序的其他方面,无论最终是否成功。尽管我们在 VVC 中加入了一些特殊功能来处理这个问题,正如我们今天所知,它们比以前更好地处理它。
而且我们还针对对话式实时视频做了一些事情,不仅是对话式的,还包括远程显示、非常低延迟的应用程序。我们为此在 VVC 中加入了一些不错的功能。与沉浸式视频和其他一些应用程序一样,我们拥有称为比特流提取和合并或基于试验的渲染的概念,您可以使用我们放入 VVC 的一些功能以更灵活的方式使用比特流。因此,到目前为止,我们正在标准化社区中尽我们所能。
另一个有趣的应用是屏幕内容编码。人们更多地共享他们的屏幕,用于桌面、游戏和其他应用程序。而较新的编解码器,最近的一切都真正强调了屏幕内容编码,也许 HEVC 屏幕内容扩展不会接管世界,因为 VVC 紧随其后,而且要好得多。但我认为屏幕内容有很大的潜力,也值得指出。
另外,对于 VVC,我认为我们将当时所拥有的所有知识都用于使其适用于非常广泛的应用程序。但我敢肯定,人们仍然会想到新事物。在 VVC 的基础上(Beyond VVC),我们在标准化社区中使用传统工具,现在可以用大约三倍的计算能力提高大约 13%,所以我们仍在前进。当然,神经网络的东西仍然是一个长期未来的大门。
Q:视频编码还能走多远?
从 H.261 到 H.266,据我估计,我们在大约 32 年的时间里将编码效率提高了大约 50 倍。那是难以置信的,我们现在可以对视频进行 1,000 比 1 的压缩。我们正在进一步突破界限。现在我们知道它变得越来越难,但标准委员会仍在加紧努力,行业也没有袖手旁观。一个简单的问题是我们还能走多远?
我们在许多步骤中将效率提高了数倍。这些步骤还剩下多少性能?信息论没有告诉我们答案,因为这不是一门精确的科学,至少没有人通过信息论给我们一个关于我们还能做多少事情的答案。达到 2 倍压缩需要什么?神经网络会成为其中的重要组成部分吗?他们会是全部吗?我们是否必须专注于用于感知或计算机应用(如计算机视觉)的视频质量测量,才能获得更大的收益?我们将如何在 VVC 之外实现 2 倍的增长?哪些技术会进入?这次会是质量驱动的吗?到目前为止,PSNR 一直是所有这些开发的工具选择,但我们知道它已经快“没油”了。也许我们会做更好的质量分析,以获得 2 倍的增益。
Alan: 墙的大小,也就是电视大小将是我认为当我们停止 2X 时的上限,所以当 Ray Bradbury 是正确的,那么 Gary 的团队将停止加倍压缩,我认为他们也许会。(Pankaj 打断:电视不能变得更大,对,65 英寸。Alan 回应:是的,他们可以,并且他们会做!)
然后第二个问题,就感知模型而言,我认为有强有力的证据表明感知模型现在有效,因为几乎所有流式传输的比特都由感知模型控制,然后你会得到--一些独立团体估计,效率可能提高了 25%。
关于深度网络的第三个快速回答,我在那里也很谨慎。我认为总有一天它会发生,因为其他一切都将是神经性的。因此,我们将所有这些都封装在一个芯片上的大系统中,该系统只是一个可以完成所有工作的大型深度网络。但在未来五年内不会。 我认为它将比人类大脑可以创建的编解码器更好。
Benjamin: 是的,也许我可以对此发表评论,因为我们做了一些实验,让神经网络训练来做一些编码器决策,并且让一些非常有经验的工程师根据他们的知识和经验来挑选它们,结果几乎相同。 所以这对工程师来说是件好事,但如果未来有一个框架,一切都由网络控制,这可能只是盲目的做法。所以这是一个替代方案。如果一切都在使用网络,并且它们就在那里,为什么不也将其用于该目的。
Pankaj: 在我们继续讨论图像压缩方面的其他参与者之前,我想插一句,第一个神经编解码器现在已经出现,它可以在图像编码方面匹配或超越 VVC 基础设施。那以前没有发生过。所以我们已经跨越了一个重要的门槛。现在它不会是实时和高效的,但它是一个神经网络。但是神经网络中的推理仍然相当快。训练它是一种痛苦,但他们一直在前进。正如你提到的 HEVC,端到端视频编解码器现在声称与 HEVC 相当,当然,VVC 还差一步,但这相当令人印象深刻。几年前他们已经超过了 H.264,现在他们赶上了 HEVC。如果世界上的所有硬件都支持 GPU 计算,这将会很有趣,那么这就是要走的路,然后也许不再需要标准。
Edouard: 我想提出一个问题,那就是能量。我们将来可能会分阶段解决一些能源问题,对吧,所以也许低技术比非常高的技术更有前途。
Michael: 在超低码率上,环路滤波肯定是 AVC 以来的巨大进步。AV1 的 SAO 和 CEDF 在超低码率下提高了主观感知,它导致了一个相对令人愉悦的图像,因为这些块以不同的速度移动,拖尾,所有这些都非常非常分散注意力,这在超低比特率下很常见。对于我期望看到的神经网络或非神经网络是环路滤波的进步,我很兴奋。
Kiho: 如果我们在未来使用 PSNR 测量,也许会面临效率巨大增长的困难。所以在这种情况下,更多地使用计算机算力将是提高效率的唯一途径。除非我们考虑测量,我们不再需要基于 PSNR 的测量,因为人们不知道原始图像。如果我们改变这种情况下的测量,无论如何都可以获得良好的增益。
Jan: 我认为我们将看到对机器视频压缩的大力推动。 我们看到了用于帮助驾驶汽车的视频压缩,我们在工厂自动化中看到了货架补货。我认为这些类型的应用程序可能不适合传统的编解码器,更适用于基于 AI 的编解码器。我想到我们今天谈论的所有应用,无论是 AR、 VR,甚至是低比特率视频会议,我认为机器视频编码如果不是最大的趋势,可能是一个巨大的趋势。
Gary: 这将是两个方面,我的意思是,要么是人类消费,是视频感知、视觉质量。要么是计算机,你可以进行物体检测或识别之类的事情,是计算机视觉应用。我同意神经网络作为一个组件,特别是用于环路滤波或采样或后处理,或帧内预测,即使在短期内,这也显示出很大的希望。就像我说的,即使使用传统方法,我们现在也显示出大约 13%。所以故事还没有完全结束,即使对于传统技术也是如此。虽然越来越难了,VVC 非常难。我们添加了许多相对较小的部分,以得到我们最终放在一起的整个包装,随着时间的推移,这些碎片变得越来越小。所以这是一场艰难的比赛。但我认为质量措施需要成为未来的一部分,我们不知道神经网络会把我们带到哪里,但这肯定是有希望的。
文章来源:媒矿工厂