仿 Sora 之形,借物理模拟之技绘视频之彩

ops/2025/2/23 0:19:23/

        来自麻省理工学院、斯坦福大学、哥伦比亚大学以及康奈尔大学的研究人员携手开源了一款创新的3D交互视频模型——PhysDreamer(以下简称“PD”)。PD与OpenAI旗下的Sora相似,能够借助物理模拟技术来生成视频,这意味着PD所生成的视频蕴含着诸多物理世界的特性。

例如,用手去触摸一盆花后,花朵会左右摇摆直至缓慢停止。PD可以准确地捕捉到物体很多微妙的动态变化和复杂的交互细节,生成的视频也就更加精准、细腻。可以查看链接视频

https://live.csdn.net/v/464063 

PD主要通过视频生成模型学习到的动态先验知识,来评估静态3D对象的物理材质属性。在大量视频训练数据的帮助下,可捕捉到物体外观和动态之间的关系。

从而帮助PD推断出驱动物体动态行为的物理材质属性,即使在缺乏地面真实材质数据的情况下也没问题,这也体现了PD强大的物理模拟和评估能力。

视频生成模型作为PD的关键组成部分,通过深度学习海量视频数据中的场景外观与动力学关系,为后续的物理材质模拟以及交互式3D动力合成奠定了坚实的基础。该模型主要借助深度神经网络来构建视频帧之间的时空依赖关系,由编码器和解码器构成。其中,编码器的作用是将输入的视频帧转化为低维表示,从而精准捕捉图像中的核心特征。

解码器则将这些低维表示解码为逼真的视频帧。通过训练过程,视频生成模型能够学习到输入视频帧与目标视频帧之间的映射关系,从而实现逐帧的视频生成。主要流程分为以下四大块。

外观建模:主要用来学习物体的外观变化模式,通过观察大量的视频数据,使PD能够捕捉到物体的纹理、颜色、形状等特征,并将它们编码为低维表示。这些编码后的表示可以用于后续的物理材料特性估计和3D动力学合成。

动力学建模:通过观察物体在视频中的运动轨迹,模型能够捕捉到物体的速度、加速度以及其他动力学特征。

先验知识提取:通过分析编码后的表示和解码后的视频帧,模型能够提取出物体外观和动力学之间的关系,包括外部力对物体的影响、物体的弹性等特征,为后续的物理材质模拟提供重要基础。

物体响应预测

PD具备物体响应预测功能,能够依据输入的交互刺激,精准预测物体的反应。该模型将交互刺激与所学习到的外观及动力学模式相结合,从而生成物体在全新交互情境下的运动轨迹与形变状况。这使得PD所生成的视频能够根据用户的输入,呈现出静态3D物体在特定交互刺激下高度逼真的动态响应效果。

在现实世界里,物体的物理行为是由其材质属性所决定的,诸如刚度、弹性和质量等。而在虚拟环境中对这些属性进行模拟时,会借助“杨氏模量”来进行评估与调整。例如,较高的杨氏模量意味着材料更为坚硬,而较低的杨氏模量则表示材料较为柔软。

为了在虚拟环境中复现现实世界中的物理知识,PD采用了材质场表示法来实现对3D对象物理属性的逼真模拟。材质场是一种连续函数,能够为3D场景中的每一个点分配一个“杨氏模量”物理属性值。

物理材质场采用了隐式神经场来表示,这是一种可微分的模型,能够优化以匹配参考视频中的动态。这种表示方法不仅能够精确地捕捉物体的物理属性,还能够与物理模拟过程无缝集成。

例如,当用户在虚拟环境中挤压一朵虚拟花朵时,花朵的变形和回弹方式会非常接近真实世界的表现。

尤其是在缓慢运动表征方面,PD模型比DreamGaussian4D、PhysGaussian、Real Capture模型表现更好。


http://www.ppmy.cn/ops/160632.html

相关文章

agent和android怎么结合:健康助手,旅游助手,学习助手

agent和android怎么结合:健康助手,旅游助手,学习助手 创新点 智能交互创新:提出全新的agent - Android交互模式,如基于手势、语音、眼动等多模态融合的交互方式。例如让agent能够同时理解用户的语音指令和手势动作,在Android设备上提供更加自然和高效的交互体验,比如在…

蓝桥杯(B组)-每日一题(1093字符逆序)

c中函数&#xff1a; reverse(首位置&#xff0c;尾位置&#xff09; reverse(s.begin(),s.end()) 头文件&#xff1a;<algorithm> #include<iostream> #include<algorithm>//运用reverse函数的头文件 using namespace std; int main() {string s;//定义一…

Brave132编译指南 MacOS篇 - 编译与运行(六)

1. 引言 经过前几篇文章的精心准备&#xff0c;我们已经成功初始化了Brave132浏览器的构建环境&#xff0c;现在&#xff0c;我们终于来到了激动人心的时刻&#xff1a;编译并运行Brave浏览器。本篇将详细介绍如何将之前准备好的源代码和依赖项转化为一个可以实际运行的Brave浏…

C#上位机--选择语句(switch)

在 C# 上位机开发的广阔领域中&#xff0c;流程控制语句如同程序的 “交通枢纽”&#xff0c;精准地引导着程序的执行路径。继深入探讨if语句后&#xff0c;我们将目光聚焦于另一个重要的流程控制语句 ——switch语句。switch语句以其独特的多路分支结构&#xff0c;为处理多条…

Spark(2)linux和简单命令

&#xff08;一&#xff09;Linux的文件系统 文件系统&#xff1a;操作系统中负责管理和存储文件信息的软件结构称为文件管理系统。 文件系统的结构通常叫做目录树结构&#xff0c;从斜杆/根目录开始; Linux号称万物皆文件&#xff0c;意味着针对Linux的操作&#xff0c;大多…

GPT1 大模型

GPT1 大模型 模型架构训练过程 GPT-1 : 采用传统的语言模型方法进行预训练&#xff0c;擅长处理自然语言生成任务&#xff08;NLG&#xff09;OpenAI 在 2018 年 6 月推出 1.17 亿个参数的 GPT-1 (Generative Pre-training , 生成式预训练) 数据集 : 数据来源 : BooksCorpus…

蓝桥杯备考:贪心算法之排座位

这道题横着放和竖着放之间是不会产生影响的 我们先说一下算法原理&#xff1a;我们先把所有行能阻止交头接耳的学生数量计算出来&#xff0c;再把每列的计算出来&#xff0c;然后再排一下序&#xff0c;按编号输出最大的几个&#xff0c;但是如果我们用数组存这些数据的话&…

RabbitMQ报错:Shutdown Signal channel error; protocol method

报错信息&#xff1a; Shutdown Signal: channel error; protocol method: #method<channel.close>(reply-code406, reply-textPRECONDITION_FAILED - unknown delivery tag 1, class-id60, method-id80) 原因 默认情况下 RabbitMQ 是自动ACK&#xff08;确认签收&…