AV1：为互联网提供开放、免费的视频编解码工具

从学术研究到进入工业界，Zoe Liu一直在算法和音视频领域，目前在谷歌编解码团队为编解码器AV1做开发支持。Zoe畅谈了评定编解码器的标准，以及AV1的最新进度。本文是『下一代编码器』系列采访之一，欢迎自荐或推荐技术人加入『下一代编码器』系列采访，请邮件editors@livevideostack.com。

文 / Ant

LiveVideoStack：请简要介绍下自己，以及目前主要的工作方向，对哪些技术或领域感兴趣？10多年来一直做多媒体相关的研发，是巧合吗，还是兴趣使然？

Zoe Liu：我目前在谷歌（Google）做软件工程师，主要从事视频编码与视频通信算法设计与实现。曾在美国贝尔实验室（Bell Labs）, 诺基亚研究中心（Nokia Research Center）, 以及惠普实验室（HP Labs）等处从事理论算法研究，后转入工业届，参与了如下视频通话产品的设计与推出：苹果（Apple）的FaceTime，谈客（TangoMe）Video Calls，以及谷歌眼镜（Google Glass）专属Hangouts Video Calls。目前在谷歌从事下一代开源免版权费（Open Source, Royalty Free）的AV1视频编码的标准制作。从学校到现在一直从事视屏编码跟视频通信方面的工作，有机缘巧合，也有兴趣使然。

LiveVideoStack：什么样的编解码器是一个好的编解码器？视频质量、码率、算法复杂度、对数据丢失或错误的鲁棒性等。

Zoe Liu：视频编解码发展的根本还是在于视频压缩效率的不断提高，也就是在一定视频质量下追求最低可能的码率，亦或在一定视频码率下追求最佳视频质量。视频质量的评测，传统上还是使用峰值信噪比，尽管这一指标在很多情形下与人眼主观的评测结果不能够一致的吻合。视频质量评测本身就是一个非常活跃的研究领域。

视频产品不同的应用场景，决定了视频编解码器的评估策略也不尽相同。在视频广播，视频直播等领域，解码器的解码效率和性能是关键环节之一。在视频通话，视频会议等应用场景，编码器的效率跟性能同样关键。目前视频码流都有关键帧的周期性嵌入。关键帧均采用帧内预测，其编解码是与其他帧独立，因此可以用于同步帧，有效的恢复纠错，但通常也会消耗大量的码率。除关键帧的采用之外，另一比较有效的容错策略是利用数据链路层的ACK／NACK结合视频编码的长距离参考帧，一旦网络出现错误（由于网络拥塞造成的包丢失），可利用确认成功传送的参考帧做帧间预测产生同步帧，编码效率会显著提升。但ACK/NACK的发送与接收取决于网络的往返延迟时间等状态参数。其他容错传输，比如向前纠错编码（FEC），在网络丢包概率小于一定限度的情形下十分有效，丢包严重时纠错性能则大大下降。编解码器的编码效率与其容错能力通常是相互矛盾的。编码效率的算法大多得益于多种预测与基于上下文（context-based）的编码工具的采用，而这些工具对于网络错误非常敏感。所以任何一款编解码器的研制，都会以牺牲一定的编码效率来增强其容错能力。

LiveVideoStack：你在LiveVideoStackCon上的分享AOM联盟以及AV1编解码器，能否在这里review一下？

Zoe Liu：首先介绍了我们在谷歌的视频编码团队。我们团队隶属于Chrome Media部门。Chrome Media的工作使命在于为互联网上的多媒体应用提供开放和免费的多媒体压缩技术。视频方面，我们的产品主要有VP8，VP9，以及AV1，其中AV1是目前和开放媒体联盟（AOM）的合作伙伴共同开发的。除视频之外，我们的产品还包括静态图像压缩标准WebP，音频编码器Opus，以及专门为3D图形数据研发的Draco编码软件。

多样化的视频应用在近几年呈现井喷的趋势，目前视频应用提供者的背景也是千差万别，在考虑压缩软件时，对成本和需求的考量也变得多样化了，这就是为什么压缩行业在单一的国际标准之外也需要产品的多元化，让用户来作出适合自己的选择。

谷歌一直以来都在坚持一个理念：所有奠基互联网应用的技术，应该是开放的、免费的，比如Chrome浏览器，Android系统就是这一理念下的实例。先进的开源、免费视频编解码技术，可以带来视频相关领域最大可能的发展，尤其为小型内容所有者以及相应企业在互联网激烈的竞争年代，提供更多平等的机会，与运营的大型公司平等抗衡，从而促进更加丰富、多样化的互联网络市场的发展。

2013年，VP9的诞生，在压缩效率上达到与H264相比节约50%的码率性能，除了基本的8比特、420格式外，同时支持更高像素精度和多种颜色空间采样格式。到现在为止，数十亿的终端设备支持VP9；Chrome，火狐，Edge，以及Opera等浏览器均支持VP9；在手机上，4.4或更高版本的安卓系统也支持VP9。在电视、游戏机、数字电视棒等家庭娱乐设备上VP9也有非常广泛的支持。

VP9最初的客户是谷歌的视频分享网站YouTube。从2013年到现在，除了大幅降低带宽成本外，VP9给YouTube的业务创造了更多的机会。在投入使用的第一年，基于VP9压缩的视频在YouTube上播放时长即达到25亿小时。目前YouTube上VP9视频用户，日均观看达到20多亿次。采用VP9压缩，使得播放起始延迟时间（首屏耗时）大大降低（平均降低15%），与此同时，缓冲效率大大提高。在成熟的在线视频消费市场，VP9使得YouTube市场占有率提高了25%，在尚未成熟的市场则提高了100%。特别是在受制于带宽限制、尚未成熟的市场中，YouTube高清视频在VP9成为主导编解码后，播放数量提升高达25%。

2015年，谷歌推进了开放媒体联盟（AOM）的创立，致力于开发开源、免费版权的新一代媒体格式，以及相应的编解码技术。目前，AOM董事会成员已经涵盖了Adobe，Amazon，AMD，Broadcom，Cisco，Facebook，Google，Hulu，IBM，Intel，Microsoft，Mozilla，nVIDIA，Netflix，nVidia等33家以上的技术巨头。

LiveVideoStack：对于应届生或从其他研发领域转行学习编解码、多媒体开发的技术人，有哪些建议？能否推荐一些系统学习编解码、多媒体开发的图书、资料？

Zoe Liu：目前流行编解码技术的基本框架是帧间运动矢量预测+二维变换+熵编码。当然人工智能的发展会不可避免的更新或者颠覆这一框架。了解编解码技术，国内在微博、微信以及知乎平台上都有很好的总结性文章，深入浅出，比阅读书籍会上手快许多。如果需要进一步了解编解码的各个模块与技术细节，最好具备图像处理、信号处理、信息理论的一些基本知识。建议可以阅读IEEE期刊上的一些关于H264/HEVC/VP9的总结性论文。目前视频编码开源代码很多，可以下载试运行，从而对编解码有更加直观的概念。

关于受访者

谷歌（Google）软件工程师，主要致力于视频编码与视频通信的算法设计与实现。曾在美国贝尔实验室（Bell Labs）, 诺基亚研究中心（Nokia Research Center）, 以及惠普实验室（HP Labs）等处从事理论算法研究，后转入工业届，尤其参与了如下视频通话产品的设计与推出：苹果（Apple）的FaceTime，谈客（TangoMe）Video Calls，以及谷歌眼镜（Google Glass）专属Hangouts Video Calls。目前在谷歌从事下一代开源无版权费（Open Source, Royalty Free）的AV1视频编码的标准制作。