当人类优渥于一种状态,总有想象力冲破平衡。
1905 年,爱因斯坦否定了绝对时空,引发物理世界三大革命。杨振宁曾说过,“爱因斯坦没有错失重点,是因为他对时空有着更自由的眼光。而要有自由的眼光,必须能够同时近观和远观同一课题。”
2021,阿里云视频云全景创新峰会,努力尝试站在近景和远景之处,全景观察这个时代的超视频化课题。
这是个怎样的时代?
这是超视频化时代。
视频让流淌的文字和图像演化成时代语言,视频把情绪、立场、眼界、思维立体化封装。视频在时间域和空间域,不断地破维和延伸。
视频化是一场博物学,包罗文字、影音,包罗空间、引力,包罗人文、情感,它呈现没有边界的世界图景,它表达自由和创造新自由。
在超视频化时代,视频衍生了更多新形态,构建了全新的内容链条,所谓超内容;视频化逐渐演变成以人为中心的交互,承载了多维感官、甚至超越时空的体验,所谓超交互;视频化让万物皆媒,人与人、人与物、人与自然,感应式链接,产生一种超社交能力和现象,所谓超链接。
视频成为全新的时代语言,视频化成为新世纪的新文化运动;而超未来的另一端,现实世界与虚拟世界的物理感知界限将模糊化,最终实现全场景的数字孪生。
当然,5G 是这个时代演进的助推器,让万物互联。而 “云 + 视频 “是场景革新的催化剂,让虚实融合。
随之,一切内容和交互,都将在这个时代发生聚变。
内容和交互的尽头在哪?
先谈内容。
技术,各式各样的技术,首先是在呈现一个意义的世界。
技术制造意义并传递情感。是这样的,就像当带宽承载有限时,人们聚焦信息的传递;当带宽承载高增时,人们通过多维形态信息传递的,是情感。乔布斯在 2001 年的访谈中,已经开始期望通过互联网更多来传递情感,今天,视频云的技术可以实现。
如果技术助力内容传递情感,那回顾内容的演进,可以看到清晰的脉络:从一行文字、一幅画、到一部影像,一直发展到今天的直播、短视频满溢,再到资讯和知识的视频化呈现,直至全场景内容的逐渐视频化,最终演变到以三维化、可交互为主的沉浸式内容形态。而在这一演进过程中,凸显了更大密度、更多维度、更多感官、拓扑空间的生长力。
如今,我们能提前预感到沉浸式的学习场域,通过 5G、XR、全息投影、数字孪生和云化网络等技术的充分融合,将抽象的知识可视化、具象化,打造线上线下无边界课堂。能把阅读新闻演化成体验 “空间新闻 “,利用有限虚拟、超高清技术、3D 和 360 全景技术,让人获得置身感与参与感,使新闻行业面临极大颠覆。更常见的是沉浸式文博,以文旅 IP 结合虚拟 / 增强现实、全息投影、智能交互,形成万物沉浸、互动叙事的产业雏形。
在国外,沉浸式演唱会将搬上舞台,索尼与 Verizon 合作,将于今年冬天推出” 麦迪逊・比尔沉浸式 VR 演唱会 “。据说该体验结合 3D 动捕、容积捕捉和 3D 重建技术,利用游戏引擎开发而成。同时,松下也宣布和 Illuminariums 娱乐公司合作打造了一个大型沉浸式娱乐中心,场内内置 46 台 4K 投影,结合 LiDAR 传感器进行交互,还将融合空间音频,具备高度定制化。
仔细品味,沉浸式内容的形态无限想象。在内容形态中,我们能纵览到从实体沉浸、虚拟沉浸、虚拟混合沉浸,再到泛在智能沉浸的线性生长路线,而尽头的内容形态将会通过全域交互的形式重构体验,带来千人千面的独特内容。
再看交互。
《科学的历程》中提到,“近代思想的一个革命性的变化,就在于从有限封闭的世界走向无限的宇宙。“ 仔细反观交互的推演,也正是如此。
从线下到线上,一切场景都在试图腾挪空间,创造无界。基于科技和商业的推动,人们的交互在慢慢转向全场景线上化,而最终的形态也将是沉浸式的交互关系。不难发现,多端链接、多人共享、打破空间、虚实无缝结合,正是这一演进的趋向。而在能看到的终点,人机交互、脑机接口都是探索重点。
如果纵览交互发展的 60 年,可以分成三个主要发展时代,而未来十年将核心聚焦在人机交互、传感器、在线社交通信、脑机接口和特征识别。
资料来源:International Journal of Human–Computer Interaction
《Mapping Human–Computer Interaction Research Themes and Trends from Its Existence to Today: A Topic Modeling-Based Review of past 60 Years》
从交互的视角,信息将从一个交互对象自然地传递到另一个交互对象,而数字将与物理共存并增强。从学术上,交互可分为:物理和数字连续体的交互、隐式交互、感官环境与感知交互、公共空间的交互,虚拟现实与增强现实交互。而这终极的沉浸式交互,核心在探索更自然的交互方式,希望释放人的立体视觉、触觉、本体感知等能力,让交互不再局限于二维视觉通道与视觉反馈。
在新交互体察上,最新的 2021CES 给我们展示了 Pollen Robotics 的远程 VR 操控方案、CareOS 的智能镜 AR 美容美发系统,还有全息技术公司 IKIN 公布的全息配件,可将智能手机或电脑屏幕变成裸眼 3D 效果。当然还有 Fackbook 一直布局的 VR 社交,试图在虚拟世界中,尝试另一种人生。
日前三星公司发布的《6G 时代远景报告》曾提到,高度沉浸 XR 与高质量移动式全息体验,将是 10 年后的普遍场景。
内容和交互的尽头大概就是沉浸式场域的综合体,而智能化已经让我们逐步 “浸入” 到了一个虚实融合的泛沉浸式时代。它不是未来,它正在发生。
生态的供给与 AI 的拿捏
从未来和时代演进穿越回来,放平视线,落在现有内容生态和技术支持层面。
深入视频化趋势,来看视频内容全图谱视角,整个产业链涵盖了内容生产、营销传播、分发平台、播放终端以及技术支持,而云计算、音视频技术强力支撑了视频内容全产业链发展。
在新的视频文化消费驱动下,新的技术在演进、在应用,新的生产方式和内容形态在诞生。
我们知道,视频的新文化消费的扩需,一方面需要数字化的短视频供应系统,一方面需要超高清视频的生产能力,从而把大众带入数字化内容浪潮中、带入到真正的 8K 时代。
超高清视频是视频技术继模拟、标清、高清后的新一轮代际演进,与 5G、人工智能等同为当今新一代信息技术的重要发展方向。而当前内容生产处于超高清生产最短板,内容服务层的推进发展对超高清商用落地起到决定性作用。
AI 在这当中可以发挥关键价值,我们可以这样思考,把视觉理解成生物和物理两个层面,生物世界是人的视觉感知,而从物理现象是对光的各种感应,包括光的亮度、细节描述,以及与时间相关的信息。
对此, AI 发挥的作用主要分成两部分,第一也是最基础的,是对于视频或者图像的理解,包括我们常见的分类、打标、检测、分割等等这些,这也是跟人相关的,因为人一开始是先理解世界的。第二是与生产相关的,比如我们生产、编辑、加工、擦除、擦入等等,还有与底层视觉相关的,就是增强相关,而怎么能够在底层视觉上对视频用 AI 技术赋能,也是其中关键。
从 AI 赋予的超高清能力来讲,对于视觉,一个非常重要的结果就是全新的视听体验,而体验与很多东西相关。第一是更丰富的细节,比如看一个东西,如果分辨率非常低或本身信息量体验非常差的东西,怎么丰富细节,尤其在 8K 即将到来的今天。第二个是更生动的色彩,在色深、色域、亮度层面,这也是体验非常重要的地方。第三是更沉浸式的体验,所谓大视角、全景视角、立体声环绕。此外还要包括在各行各业更广泛的应用。
AI 驱动高清往前走,智能是最基本的,而能不能在不同场景自适应去做事情,AI 技术并没有所谓的普适性的能力,所以在卡通、新闻人物、传记不同场景中,能够有很好的系统,而不是单一的模型、万能的模型去处理,所以能够自适应的针对不同场景采用最优质的算法,这是很重要的。由此,自适应、高质量、自评估的智能化 AI 技术驱动,正是达摩院着力的关键。
在超高清之外,AI 对超内容消费的效率提升,也在强力赋能。
当前用户碎片化消费时间不断增加,短视频的消费用户规模已超 7.73 亿人,短视频的市场规模超过 2000 亿元。但我们都了解,在内容供给侧,制作一个较高水准的视频面临着创意生产困难、工具实现困难的问题,高效的规模化产出则更加困难。就此,阿里大文娱 Media AI 平台通过 AI 研发可以实现五大功能:动态素材提取、模版视频生产、智能剪辑技术、智能素材加工、互动特效。
结合自身业务特点,大文娱希望能够在平台侧,提效率促分发,为行业创造更多更好的产品和工具;在消费侧为用户提供更多的新消费形态和视频的消费互动新体验;在行业侧,能与更多 B 端的 PGC 或者 MCN 进行合作。
如今,基于技术和生态的联动,阿里云视频云也正将整个媒体生产的模式提升到一个新的时代 —— 云端一体的智能生产架构。这一架构包含了内容创意、素材管理、剪辑包装、渲染与合成四大核心环节,具有云导播、云剪辑、AI 处理生产等丰富的功能。因此,在云端一体的架构和 AI 能力的加持下,传媒行业的内容生产将会赋予更多可能性。这种生产化的模式将会极大地重塑内容行业,让真正的内容创作者从繁复的重复化劳动中释放出来,创造出更丰富的内容、形态、模式。
视频力改变了商业逻辑
时代的演进、技术的加持、生态的联动,更多是降落在商业落点上。
以往,讲互联网整体的价值的时候,常规去用的就是流量价值,从移动端来讲最简单就是在每个月、每周覆盖多少设备,但现在我们要用时间数来看。在短短 3 年之内用户在整个视频细分产品的花费时间,从一万六千亿分钟变成四万八千亿分钟。数字是惊人的。
面对现象背后的巨大商业空间,该怎么配合驱动和创新更多,是我们必须思考的。
我们在讲视频传播时,它的本源是一个信息传播的载体,信息传播本身要去分类的话,分为一对一进行交流或传播,和一对多或者多对多,而另外一个维度上又分为延时和实时。
视频的承载能力可以与众多行业来做结合。所以,以前看视频,我们基本会说视频行业、视频赛道,而现阶段,我们更会认为所有领域都会如此结合视频的情况下,它就像云计算一样,不再更多的看成一个行业的概念,而是一个互联网新经济底层的基础能力。借此能力,各个行业可以去做一些创新的事,基于云、基于视频,基于视频云。
而视频云,将会成为行业视频化的必选项、成为大视频产业的技术底座。
作为一种数智化基础设施的存在,视频云不仅大幅降低了视频应用的准入门槛,更通过促进产业效率提升,不断推动大视频产业的繁荣。
从需求端思考,视频云能够为企业提供视频能力或把产品视频化,可以运用更多生产、处理、传输、消费增值能力。比如直播电商是最早深刻感受到的,整个电商主体在发生变化,原来能看到仅仅是几个大的直播电商,但视频化赋予了平台电商化的转型能力,让现在的很多内容平台甚至创业公司都有非常大流量的中心位置,主播可以是电商的中心,而在过去,它是不存在的。
另外在线教育领域,在线教育摸索很多年都没有办法进行完整变现,后来直播的出现让行业解决了一定的沉浸感问题,学生可以跟老师有更多的互动,可以解决一些学习效率的问题。本质上,视频化确实解决了一部分教育的沉浸感和效果问题,以致在线教育在过去几年终于找到它变现的逻辑。对电商和教育领域,艾瑞研究院副总经理徐樊磊的分析是很精准的。
除了目前视频化渗透率最高的电商和教育,广阈的互联网娱乐、传媒行业的数智化转型、企业的移动协同办公,亦是视频云技术应用的重点场域。基于视频云技术,新的商业场景还在不断被打开,从新电商、新教育、新社交、新金融、新医疗,乃至更多产业、更多行业的转型铺面到来。
时代的演进、视频的渗透、交互的变革,让行业的变现逻辑、流量方向、组织形式都在发生巨大的格局变化。
就此,阿里云视频云也联合艾瑞咨询共同研究,发布《2021 中国视频云场景应用洞察白皮书》,以云上创新为视角,全面展现视频化应用的全场景、全链路,针对空间、盲点、机会、案例深度剖析,着力为视频云赛道的商业市场奠定重要的实践价值。
赛事和开源,是社会想象力的放大器
超视频化的时代,视频云的想象力远不止步于商业场景,更多的是普惠全民、创造多元化的社会价值。
就在今年 2 月,阿里云联手英特尔主办、与优酷战略技术合作的全球视频云创新挑战赛启动,这届大赛是全球首个聚焦于视频云技术在全行业的应用与创新领域的比赛,由天池平台和阿里云视频云承办,初赛启动便吸引了来自全球高校的 4600 支参赛战队。赛程中,能看到不断涌现的创新项目,充满社会向价值和全新生命力,如视觉算法实现的安全停车项目、老人看护项目。
值得一提的是,大赛通过与优酷平台联手,提供了一个大规模高精度视频分割数据集,供参赛选手训练模型,并最终打磨成视频分割领域的权威数据集,非常稀有。该数据集具备夯实的数据量级,包揽 18 万帧以及高达 30 万的最多视频目标数据集,在标注精度和内容广度上均为行业领先。同时,内容类型高度贴合真实场景且场景多元,对于视频产业具有极高的探索意义。
数据作为信息时代重要的生产要素,被誉为新的动力能源,是人工智能技术发展的重要基础。
通过与阿里巴巴集团内部的淘宝、天猫、阿里云、优酷、AE 等业务团队,以及清华大学、上海交通大学、中国科学院国家天文台、中国计算机学会、中国中文信息学会、协和医院、瑞金医院等外部权威科研机构合作,天池大赛平台开放了包括电商、金融、物流、医疗、能源等 60 多个有真实业务场景的产业稀缺数据集,为全球计算机视觉的人才培养做出卓越贡献,为更多技术开发者创造更广域的空间。
不得不说,激发澎湃能量的技术创新大赛和大规模的权威的开源数据集,为更多维的社会想象赋能,在此基础上的技术绽放,很让人期待。
若你也曼妙于沉浸想象里
归根结底,无论技术、商业、生态、资源,一切都是为了人的情感和体验。
科技不断在和众多领域发生互渗性,而艺术大概是我们最想触摸的特别性场域,也是最接近人类内心软糯情感的神经线。
7.10 的 “Imagine” 阿里云视频云全景创新峰会,从主办方角度,真切地从想象出发,试图以一种视觉通道的沉浸感,拉进人与空间的距离。
当然,从科技跨界艺术的角度,我们深度关注的,是数字时代的审美创作实现。
我们发现,当代艺术创作者也在不断凭借其想象力和跨学科能力,致力科技与艺术的融合创作。在数字交互时代,创作、传播的艺术行为在全面出新,进而在艺术审美的感觉、体验和思维方面也在产生深刻变革。审美驱动技术,技术反哺审美。
在数字交互时代,极致的审美追求,是对专业的追求,而专业的背后蕴藏着创作效率、创作能力。技术无疑是帮助创意多感官、多维度实现的重要工具,而基于深度学习的 AI 工具在协助这样的过程,为创意大脑插上翅膀。
与此,数智化能力对视觉交互的重构,也是非常重要的体验演进,峰会上以 “跨界智造 “为内核,尝试呈现一些内容和交互的新体验装置,如基于生成对抗网络及迁移学习技术的卡通智绘、打造实时渲染屏幕的虚拟拍摄、通过面部和动作捕捉技术的虚拟偶像,一切都在探寻基于艺术、基于人的科技新体验。
以上,便是阿里云视频云在新时代窥见的有限视野,而无限的内容还待想象。
超视频化时代,视频云无处不在
视频云是交叉学科的新领域
是云端一体的数智化能力
视频云是人类未来的想象力
正在开启一个全新的、无限的、自由的世界
有想象的地方,就有视频云。
本次视频云全景创新峰会的所有演讲内容,后续会在「 视频云技术」公众号陆续发布。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。