「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

news/2024/11/19 2:36:27/

在这里插入图片描述

你是否想过,未来你看到的电影预告片、广告,甚至新闻报道,都可能完全由 AI 生成?

人工智能迅猛发展的今天,视频技术正经历着一场前所未有的变革。从智能编解码到虚拟数字人,再到 AI 驱动的视频生成,这一领域的创新正以惊人的速度推进。这些进步不仅提升了技术指标,更为实时互动、内容创作、广告营销等场景带来了全新的可能性。

在本届 RTE2024 实时互联网大会上,来自学界和业界的多位专家深入探讨了视频 AI 技术的最新进展。阿里巴巴达摩院的陈建华、声网的周世付、鹏城实验室的林荣群、双深科技的曹磊、生数科技的张旭东等行业专家分享了他们的研究成果和洞见。

北京大学的马思伟教授和声网视频编解码负责人戴伟分别主持了主题分享和圆桌讨论环节。

在这里插入图片描述

林荣群:AI 时代下的智能视频编解码新思路

在这里插入图片描述

鹏城实验室的林荣群博士以一个问题开篇:「如果视频内容全部由 AI 生成,我们该如何进行编码?」

林博士首先回顾了视频编码的发展历程,从早期以人眼感知为导向的保真度指标,到注重商业评级的阶段,再到如今 AI 时代对智能任务的需求,视频编码的目标不断演变。他指出,未来的智能编码不仅要满足人类视觉体验,更要服务于机器识别、检测等 AI 任务。

在介绍智能编码技术时,林博士强调了两个关键点:智能作为工具,提升我们对编码对象的理解;智能作为目标,服务于下游智能应用。他认为,智能编码的核心挑战在于对场景和对象进行结构化表示。「深入理解压缩对象,才能大幅提升压缩效率。」林博士解释道。

林博士随后详细介绍了几种智能编码的技术路线,包括传统编码与深度学习的融合、全神经网络框架以及生成式编码。他还特别介绍了鹏城实验室在文生视频大模型领域的实践,展示了团队基于国产框架和算力平台的最新成果。

展望未来发展方向,林博士提出了几个关键点:数据处理的重要性、算法优化、模型轻量化以及推理和采样速度的提升。

在这里插入图片描述

周世付:虚拟数字人的发展趋势与技术突破

在这里插入图片描述

声网人工智能算法负责人周世付首先介绍了虚拟数字人的基本概念,指出它是存在于数字空间中,拥有近似真人或卡通人物外貌、行为和特质的角色。一个成功的虚拟数字人需要兼具「好看的皮囊和有趣的灵魂」。

他将虚拟数字人的制作流程概括为三个阶段:建模、驱动和交互。建模阶段利用 AI 技术为特定人物创建模型;驱动阶段运用计算机视觉技术,赋予模型动态的表情和动作;最后,借助大语言模型,实现与虚拟数字人的自然流畅的交互。

展望未来,周世付认为虚拟数字人的发展将呈现四大趋势:

  1. 3D 智能数字人:3D 形式将成为主流,结合大语言模型实现更高级的智能化。
  2. 实时互动:传输表情参数而非图像像素,依靠终端设备重建数字人形象,实现低延迟、高流畅度的互动体验。
  3. 虚实融合:将数字人融入虚拟空间,增强沉浸式互动体验。
  4. 低成本应用:通过技术进步降低计算量和成本,推动数字人在更广泛的场景中应用。

在这里插入图片描述

陈建华:新一代视频编解码标准 VVC 的机遇与挑战

在这里插入图片描述

阿里巴巴达摩院高级算法专家陈建华从一线研发和应用的角度,深入剖析了 VVC(Versatile Video Coding)标准在实际落地过程中的关键问题。

关于 VVC 标准发布四年多来的发展现状,陈建华介绍说,支持 VVC 硬件的芯片正逐渐增多,包括联发科(MediaTek)、瑞昱(RealTek)等厂商均已发布相关产品。基于这些芯片,市场上已经出现了超过 100 款支持 VVC 的智能电视、机顶盒等设备。在软件生态方面,除了标准参考软件 VTM 之外,多个开源编解码器和播放器也已支持 VVC,为开发者提供了丰富的学习和研究资源。

以达摩院自研的 DAMO 266 为例,陈建华介绍了他们在软件解码器优化方面的创新成果。通过异构计算技术,将关键算法迁移到 DSP 等单元,显著降低了功耗,使 VVC 软解码在移动端的性能已接近 H.265 硬解码水平。这不仅扩展了 VVC 的设备覆盖范围,也为其大规模应用扫清了障碍。

在这里插入图片描述

曹磊:AI Codec 将引领视频编解码技术革新

在这里插入图片描述

双深科技 CEO 曹磊指出,在图像和视频大爆发的时代,提升编解码性能是实现降本增效的关键手段。AI 正在计算机视觉领域发挥越来越重要的作用,贯穿从成像到应用的整个过程。如果编解码也能融入 AI,整个流程将更加智能化。

曹磊指出,传统编解码技术发展到 H.266 后,提升空间已趋于平缓,且编码复杂度高,落地困难。相比之下,AI Codec 基于深度学习的端到端编码,能更好地表达细微特征,拥有更大的发展潜力。他引用了团队最新的研究成果,表明他们研发的 ANF 基础模型在平均数据序列上,相比 H.266 的参考软件 VTM,压缩率提升了约 25%,超越了 DCVC 等现有方案。同时,他还介绍了 IEEE 1857.11 HIV 标准,其中双深科技贡献了一项高效的并行熵编码核心专利。

曹磊重点分享了 AI Codec 在移动端落地的实践。为了实现落地,团队致力于模型轻量化,包括模型剪枝、蒸馏和量化等,并在算子定制化部署上投入了大量精力,以适应不同型号的手机 NPU。

在这里插入图片描述

张旭东:AI 视频生成技术的飞跃与实践

在这里插入图片描述

生数科技产品总监张旭东分享了 AI 视频生成技术的最新进展。他带领的团队深耕多模态大模型领域多年,亲历了从 GPT-3 到 ChatGPT 的技术变革,以及从图像生成到视频生成的跨越式发展。

张旭东回顾了团队在视频生成领域的探索历程。早在 2022 年,他们就提出了 U-ViT 框架,这一架构与后来备受瞩目的 Sora 有着诸多相似之处,其核心优势在于能够进行连续预测,从而获得更佳的一致性和效果。

生数科技的视频生成模型在实践中展现出多项显著优势:

  1. 强大的语义理解能力:能够精准捕捉复杂的场景描述。
  2. 多镜头语言支持:实现镜头间的流畅过渡。
  3. 极致的推理速度:仅需 30 秒即可生成一段视频。
  4. 出色的一致性表现:在不同场景中保持人物形象、动物特征等元素的一致性。
  5. 参考图像支持:可以根据提供的商品图、人物照片等生成相关视频。

这些特性赋予 AI 生成视频在广告制作、影视宣发等领域巨大的应用潜力。张旭东以动画电影《熊猫呼呼》和科幻电影《毒液》的宣传视频为例,展示了 AI 技术如何将原本 1-2 天的制作周期压缩至 3 小时内,极大地提升了效率。

在这里插入图片描述

圆桌讨论:视频生成的 ChatGPT 时刻何时到来?

在这里插入图片描述
在这里插入图片描述

在主题是「视频生成的 ChatGPT 时刻何时到来」的圆桌讨论中,声网视频编解码负责人戴伟担任主持人,邀请了包括始智 AI wisemodel 创始人刘道全、声网人工智能算法负责人周世付、生数科技联合创始人张旭东以及学界代表马思伟教授等嘉宾参与讨论。

在这里插入图片描述

刘道全认为,真正的「视频生成的 ChatGPT 时刻」需要融合图像、文本和语音等多种模态,生成完整的视频。目前的难点在于 多模态融合 ,但随着 LLaMA-Omni 等音频语言模型的出现,这种融合正在加速,未来可期。他还提到了始智 AI 在开源社区的贡献,例如 Sora 复刻计划,鼓励大家共同探索。

张旭东则对未来充满乐观。他认为,从技术的可用性来看,视频生成已经不再像过去那样生成不可用的内容,甚至已经与索尼等国际大 IP 达成合作,解决实际问题。但他指出,成本和渗透率仍然是制约因素 。目前单次视频生成的成本较高,限制了大规模应用。随着算力提升和算法优化,成本下降,渗透率将会提高,真正的「视频生成的 ChatGPT 时刻」也将到来。

周世付则从交互角度出发,认为 以语音交互为基础 ,结合大语言模型和数字人,或许会更快地推动「视频生成的 ChatGPT 时刻」的到来。

马思伟老师补充道,虽然视频生成面临一致性、时长等技术挑战,但从应用模式和技术发展来看,一些公司例如生数科技、智谱 AI 的 会员付费模式 ,既带来了资金支持,也积累了训练数据,形成了良性循环,推动着技术的进步。他乐观地认为,2024 年或许可以视为「视频生成 ChatGPT 时刻」的开端。

当机器也开始「生产」和「观看」视频,视频的意义将被重新定义。RTE2024 大会让我们思考,在人眼视觉之外,视频还能为我们带来什么?在机器视觉的时代,视频技术又将如何发展?这些问题,或许正是未来视频技术探索的方向。

在这里插入图片描述


http://www.ppmy.cn/news/1548132.html

相关文章

Unet++改进24:添加DualConv||轻量级深度神经网络的双卷积核

本文内容:添加DualConv 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 卷积神经网络(CNN)架构通常对内存和计算要求很高,这使得它们在硬件资源有限的嵌入式系统中不可行。 我们提出了双卷积核(DualConv)来构建轻量级深度神经网络。DualConv结合3 3和1…

在 Flutter 应用中调用后端接口的方法

在 Flutter 中调用后端接口通常使用 http 包来发起 HTTP 请求。以下是一个使用 http 包的基本示例,展示了如何在 Flutter 应用中调用后端接口并处理响应。 首先,确保在 pubspec.yaml 文件中添加 http 包的依赖: dependencies:http: ^0.13.0…

【Qualcomm 】CDSP介绍以及简单的使用

🦋产品层级 高通技术公司 (QTI) 提供大量且数量不断增加的 Snapdragon 芯片组解决方案变体。Snapdragon 移动产品系列分为五个产品层级。🌸最高层级包括 SM8xxx 系列(高级)和 SM7xxx 系列(高级)。较低层级包括 SM6xx、SM4xx 和 SM2xx 系列🌸。 上述这些产品层级的区…

spring6对bean管理自己的一些理解

在JavaWeb中,存在以下的开发架构: 什么是Spring管理Bean 在传统的Java开发中,你需要手动创建对象及其依赖,这意味着你需要编写大量的构造代码,并且这些对象之间的依赖关系需要手动管理。这在复杂项目中会非常麻烦&…

数据分析编程:SQL,Python or SPL?

Talk is cheap. Let’s show the code 1. 计算用户会话次数 用户行为数据表 useridaction_typeaction_timeU1059login2023-12-01 18:00:10U1092login2023-12-01 18:00:17U1069login2023-12-01 18:00:22……… 10 分钟没有任何动作或退出后 5 分钟没有登录则认为会话结束&am…

安全见闻2

声明! 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&#…

JS学习日记(jQuery库)

前言 今天先更新jQuery库的介绍,它是一个用来帮助快速开发的工具 介绍 jQuery是一个快速,小型且功能丰富的JavaScript库,jQuery设计宗旨是“write less,do more”,即倡导写更少的代码,做更多的事&#xf…

怎么用家用电脑做服务器(web服务器、ftp服务器、小程序服务器,云电脑)

原料: 1、家用电脑,是电脑就行 2、宽带,这个有要求哦,必须是官方宽带,北乔峰,南慕容,北联通南电信,什么长城宽带等等地方小帮派,都没有朝廷的公网IP,没法直接…