导语:IT技术赛场开赛!
作者 | 宋慧
出品 | CSDN(ID:CSDNnews)
当前,2022 卡塔尔世界杯比赛正在如火如荼进行中,处在更加激烈关键的半决赛阶段。作为足球运动的全球顶级赛事,世界杯点燃了全球足球爱好者、球迷观众的观赛热度,与此同时,比赛背后,怎么搭建一个强大的技术服务和支撑体系,才能保证大赛直播时的高并发、大量实时互动内容高清、高流畅地全球同步和分发,这绝对是技术服务商们的一大现实挑战。
可喜的是,抖音集团成为了 2022 世界杯持权转播商、中央广播电视总台直播合作伙伴,并拥有直播+短视频版权,是本次世界杯精彩赛事内容服务的一大重要力量,赢得了大量球迷观众的关注和使用,开赛时直播间的热度不亚于春晚直播和火热电商季的视频直播。根据 CSDN 跟踪了解,抖音世界杯服务系统背后,是由字节跳动旗下的云服务平台火山引擎提供的稳定、高清的直播技术支持,还有各类贴近球迷和观众的新颖线上互动产品支持更潮流的新玩法。另外,火山引擎视频云还为抖音、央视的赛事直播提供 CDN 服务,而这些都是火热赛事之外,非常值得广大开发者们关注和了解的“内幕”技术。
超高清世界杯直播背后,来自火山引擎自研技术支撑
音视频技术已经发展多年,而欣赏一场酣畅淋漓的运动赛事直播,对于观众最直观的感受,是画面的视觉体验。在这次抖音世界杯直播的技术服务中最亮点的体验升级,是火山引擎多媒体实验室采用多项核心的视频技术和算法,让画面实现超高清,为球迷观众提供了高品质的观赛感受。
具体来说,足球等大型体育赛事的视频编码算法既要在高速运动、复杂纹理的场景下确保直播内容的清晰度和流畅度,保障用户的观赛体验,又要兼顾码率、延迟等对网络传输层面的敏感指标。火山引擎自研的 BVC 编码器担负了抖音世界杯直播视频编码的重任,针对体育赛事和 HDR 场景视频进行了深度优化,不仅以低于行业的平均码率获得了相对更好的画质和更丰富的细节,而且在编码延迟等方面大幅度领先于行业水平。
除了最核心的视频编码任务,针对世界杯的 HDR(高动态范围图像)内容,火山引擎设计了自适应 ToneMapping 算法。现在世界杯等主流大型赛事已采用 HDR 拍摄方式,HDR 拍摄的片源拥有更广的色域,更大的动态范围。但很多终端显示设备并不完全支持 HDR 信号播放,以往传统的 Reinhard、Filmic 或者 Uncharted 2 等 TonaMapping 算法都是使用固定曲线方法将 HDR 视频转换为 SDR 视频,转换得到的结果模式固定,无法适应大型体育赛事这种多变的场景。因为大型比赛现场动态范围跨度大,场馆的灯光/草地/球员亮度差异明显,观众感兴趣的球员信息实际集中在暗部区域,导致传统的 ToneMapping 处理后的 SDR 信号过暗。而火山引擎在世界杯直播视频里,采用内容自适应的 ToneMapping 算法,通过统计视频帧的亮度信息进行动态的映射,实现更优转换效果。
左: hable 算法,右: 内容自适应 ToneMapping,实现世界杯比赛现场各类画面的亮度优化
除了直播信号的 HDR 内容之外,针对只有 SDR 信号的机位画面,火山引擎使用色彩增强算法,通过分析视频亮度/色彩/对比度等信息,对视频进行相应的均衡化处理,实现主观效果的优化。
色彩增强前后对比,能看到法国队球员与背景观众席的色彩对比增强,突出球员
色彩增强前后对比 2,优化后加拿大观众席的主色彩更加鲜艳
此外,抖音世界杯直播里,火山引擎还使用了自适应锐化、时空域降噪、超分等画质增强等视频的优化技术,优化后通过 JND 主观评测结果为 1.64(JND 分数区间是-3—3,大于1分为显著正向),从客观评估角度能够看出优化效果显著。
画质增强优化前后对比,JND 主观评测表明效果显著
边看边聊的云看球,音视频技术激发世界杯更多互动玩法
近几年,实时音视频 RTC 技术已经应用在了各种行业领域和场景中,背后原因是让普通用户实现了更多音视频互动体验。今年卡塔尔世界杯,观众在网上互动量也远超以往重要的赛事,除了常规的图文形式互动,还有例如朋友之间可以异地同时在线“云看球”,让紧张刺激的观赛互动参与感拉满,同时还增添了另一层体育趣味。
例如抖音就在 2022 世界杯比赛直播中推出了边看边聊的玩法,每个观众都可以在观看比赛时创建自己的聊天频道,邀请好友来一起在线看比赛,根据战况边看边聊,各抒己见,是更进一步的兴趣互动和社交。不过这种多个声源的复杂音频场景,想要获得良好的使用体验,要用到更多音视频的硬核技术去支撑,例如回声消除、自适应音量均衡、智能音频闪避等。
比如用户在抖音平台与好友一起激情看球,大声欢呼,一般都是使用音频外放。此时麦克风不仅会采集到用户的声音同时也会采集到直播中赛场和解说的声音,产生回声。回声消除是在 RTC 场景中是一个重要的音频优化技术,火山引擎 RTC 通过音频托管的方式,并采用自研软件智能 3A,在传统算法的基础上,引入基于深度学习的回声抑制算法,有效消除双讲场景下的回声,同时避免回声消除过强导致的人声卡顿音质差等问题,能够保证直播赛事的最佳音质表现,提升交流的体验。
另一个体验优化的亮点是智能音频闪避。以往赛事直播中,观众只是单向的收听解说和现场音频,但在世界杯边看边聊的场景下,好友间一起聊球,特别是精彩的进球攻门瞬间和朋友一起分享欢呼,这时直播赛场和解说声音就变成了一种“声音干扰”,所以“边看边聊”里,平衡聊天室中直播声音和用户人声音量大小成为提升用户体验的关键点。火山引擎 RTC 采用自适应音量均衡策略,可以结合直播音量自动调节人声音量大小配比,让用户间说话声音清晰。同时为了更好地解决用户语音被直播声音遮盖的问题,火山引擎 RTC 提供了智能音频闪避功能,通过 AI 语音检测准确人声,当好友侧讲话讨论时,用户侧的直播声音会自动降低,而当大家专心看球不说话时,直播声音又会恢复正常的音量,可以达到非常清晰自然的音频体验。
当然,除了这些细致的音视频优化技术去提升用户体验,世界杯直播作为超级版权赛事,目前在抖音上的单场观看峰值超过了 1.6 亿人次, 随着比赛进入半决赛阶段,热门赛事的瞬间并发压力和聊天用户数据也将继续走高。赛事直播服务的平稳运行,更加需要后端满足超高并发和稳定的性能和运维保障。火山引擎 RTC 团队通过 SFU+MCU 融合方案,一方面可以减少 RTC 系统全链路的并发音视频流数,扩大 RTC 系统并发容量,另一方面保证用户可以随时平滑上麦交流的同时,有效降低观赛用户的设备端性能消耗压力。
四年一度的世界杯,是足球和体育界的一大赛事盛会,在全球劲旅球队比赛同时,更是一场 IT 技术大比拼和观众实时体验赛。在 2022 卡塔尔世界杯直播中,我们看到,扎实过硬的技术,探索创新而新颖的产品应用,让抖音和火山引擎视频云赢得了球迷和观众实实在在的良好体验和口碑,让我们真正体会到用技术改变世界、用技术追求美好生活的意义。音视频技术还在不停向前发展,创新的玩法和热度还将持续在更多场景中发挥重大价值,欢迎开发者们多多关注,CSDN 也将进行持续报道和介绍。