专访李飞飞:从2D到3D,AI将为我们带来哪些改变?

server/2024/12/18 11:17:34/

全文2,600 字,阅读约需6分钟

图片

斯坦福大学教授李飞飞接受了 IEEE Spectrum 的独家采访。这位人工智能领域的传奇人物,因创建 ImageNet 数据集和竞赛而闻名于世。通过这一开创性工作,她为深度学习的蓬勃发展奠定了坚实基础。

ImageNet 竞赛要求人工智能系统在 1,000 个类别中准确识别物体和动物。2012 年,神经网络模型 AlexNet 以显著优势胜出,在学界引发轩然大波,由此揭开了神经网络技术迅猛发展的序幕。这一突破得益于互联网海量免费训练数据的支持,以及 GPU 带来的强大计算能力。

在过去的 13 年里,计算机视觉不仅在物体识别方面取得重大突破,更将研究重心转向图像和视频生成等更具挑战性的领域。作为推动这一领域不断向前的中坚力量,李飞飞创立了斯坦福大学以人为中心的人工智能研究院(HAI)。而今年,她又开启了新的征程 - 创立 World Labs,致力于开发能让用户沉浸式探索的 3D 场景,期望赋予人工智能"空间智能",使其具备生成、推理和交互 3D 世界的能力。

采访文稿

问题一: 您为什么把演讲命名为“登上视觉智能的阶梯”?

李飞飞: 我觉得智能的发展有不同的复杂性和精细化层次,这一点是显而易见的。在演讲中,我想让大家感受到,尤其是在过去十多年深度学习革命的推动下,视觉智能领域取得的进步令人叹为观止。我们的技术能力正在不断突破。此外,我还受到Judea Pearl在《为什么》一书中提出的“因果关系阶梯”的启发。这次演讲还有一个副标题——“从‘看’到‘做’”。我觉得,人们往往忽视了“看”与互动和行动之间的紧密联系,这不仅适用于动物,也同样适用于人工智能体。而这与语言有所不同。语言更多是一种用来表达想法的交流工具。在我看来,视觉和语言是两种相辅相成、同样深刻的智能形式。

问题二: 您是说我们会本能地对一些视觉信息作出反应吗?李飞飞:  我并不仅仅是指本能。如果我们回顾感知能力的进化史以及动物智能的发展过程,就会发现两者紧密相连。每当我们能够从环境中获取更多的信息时,进化的驱动力就会推动能力和智能不断提升。如果一个生物无法感知环境,它与世界的关系会非常被动;无论是进食还是被捕食,都是一种被动的行为。但当生物能够通过感知从环境中获取信息时,进化压力就会加剧,而这正是推动智能发展的关键力量。

问题三: 您认为,通过让机器感知更多环境,我们是在推动机器智能向更高层次发展吗?

李飞飞: 我不确定“更深层次”是否是最恰当的形容词。我认为我们是在赋予机器更多能力,让它们变得更复杂、更强大。我坚信,攻克空间智能问题是迈向全面智能的基础性和关键性一步。

问题四: 我看过 World Labs 的演示。为什么您会选择研究空间智能并开发这些 3D 世界?

李飞飞:  我认为,空间智能是视觉智能的未来方向。如果我们真心想解决视觉问题,并将其与行动相结合,就必须面对一个显而易见的事实:我们生活的世界是 3D 的,而不是平面的。无论是机器人还是其他设备,这些物理代理都将生活在 3D 世界中。即使是虚拟世界,也正在越来越向 3D 发展。艺术家、游戏开发者、设计师、建筑师和医生等领域的人士,即便是在虚拟环境中工作,他们的很多内容也是基于 3D 的。如果我们稍微停下来思考这一简单却深刻的事实,就会发现解决 3D 智能问题的重要性不容置疑。

问题五: 我很好奇,World Labs 是如何在场景中实现物体恒常性和物理定律的。这似乎是一个令人振奋的进展,因为像 Sora 这样的生成视频工具在这方面仍然存在明显的不足。

李飞飞:  当你承认世界是 3D 的,很多事情就会变得顺理成章。例如,我们在社交媒体上发布的一个视频中展示了篮球被投入场景的效果。因为这是一个 3D 场景,它能表现出真实的物理行为。如果场景仅仅是由 2D 像素生成的,篮球根本无法移动。

问题六: 或者像 Sora 那样,篮球可能会移动一下,但随后消失。您在推动这项技术时,面临的最大挑战是什么?

李飞飞: 到目前为止,没人真正解决过这个问题,这确实非常困难。比如在 [World Labs 的演示视频中],

,时长01:12

我们用一幅梵高的画作生成了一个完整的场景,而且风格完全一致:艺术风格、光线效果,甚至周边环境中可能存在的建筑类型。如果你转身却看到摩天大楼,这就完全不符合逻辑,对吧?更重要的是,这必须是一个 3D 场景,用户需要能够进入并探索其中。所以这远远超出了简单的像素生成。

问题七: 您能透露一些训练数据的情况吗?李飞飞:  数据量非常大。

问题八: 如果人工智能系统能够真正理解 3D 世界,这将为我们带来哪些改变?李飞飞:  这会极大地激发人类的创造力和生产力。我一直希望能用更高效的方式来设计我的房子。同时,医学领域也需要理解 3D 世界,比如人体结构的复杂性。我们常说未来的机器人会帮助人类,而机器人需要在 3D 世界中行动,空间智能是它们大脑中不可或缺的一部分。此外,我们还谈到虚拟世界,这些技术能让人们“身临其境”地参观、学习或者娱乐,尤其是结合 AR(增强现实)技术。我非常希望有一天能戴着智能眼镜,走在国家公园中,实时获取有关树木、小径、云朵的信息。我还希望通过空间智能学习各种新技能。

问题九: 比如哪些技能呢?

李飞飞:  举个简单的例子,如果我的车在高速公路上爆胎了,现在我会打开一个教学视频来学习如何换轮胎。但如果我可以戴上一副眼镜,直接查看车况并获得操作指导,那就太棒了。当然,这只是一个简单的例子。你还可以想象做饭、雕塑等充满趣味性的事情。

问题十: 您认为我们在有生之年能够在这方面取得多大突破?

李飞飞:  我相信这些会在我们有生之年实现,因为技术进步的速度实在太快了。看看过去十年的成就,就可以预见未来的可能性。

我们团队专注企业AI解决方案

业务流程AI优化提升运营效率降低人力成本定制AI应用开发场景化解决方案快速交付落地AI转型咨询规划专业评估诊断精准转型方案

联系负责人:Milo-1101(仅限企业客户)

原视频链接:https://spectrum.ieee.org/fei-fei-li-world-labs

素材来源官方媒体/网络新闻


http://www.ppmy.cn/server/151154.html

相关文章

Cookie,Seesion和Token区别及用途

Cookie,Seesion和Token区别及用途 简介 Cookie、Session、Token 和 JWT(JSON Web Token)都是用于在网络应用中进行身份验证和状态管理的机制。虽然它们有一些相似之处,但在实际应用中有着不同的作用和特点。 Cookie 定义&#…

爬虫运行中遇到反爬虫策略怎么办

在现代网络环境中,爬虫技术与反爬虫策略之间的博弈愈发激烈。为了应对网站的反爬虫措施,爬虫开发者需要采取一系列策略来确保数据抓取的成功率。本文将详细介绍几种常见的反爬虫策略及其应对方法,并提供相应的Java代码示例。 1. 用户代理&am…

(笔记)lib:no such lib的另一种错误可能:/etc/ld.so.conf没增加

[TOC]((笔记)lib:no such lib的另一种错误可能:/etc/ld.so.conf没增加) 0.需求说明 通过cmakelist去find一个库时,可能导致报错,例如”libsgm.so cannot open“。但明明已经make install了,所以还有一种可能: 共享库…

如何通过变更让 PostgreSQL 翻车

在开发应用程序和维护其后台数据库集群的过程中,我们经常会遇到实践与理论、开发环境与生产环境之间的差异。其中一个典型的例子就是变更数据库中的列类型。 对于在 PostgreSQL(及其他符合 SQL 标准的系统)中变更列类型的常规操作&#xff0…

leetcode--字符串

目录 344.反转字符串 541.反转字符串II 卡码网:替换数字 151.反转字符串中的单词 卡码网:右旋字符串 28.找出字符串中第一个匹配项的下标 459.重复的子字符串 344.反转字符串 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以…

P8772 [蓝桥杯 2022 省 A] 求和

题目描述: 解题思路: 首先这题我们可以直接用两个for循环嵌套来控制两个变量来求值,但是这样做时间复杂度高。这里我们用到了一个前缀和差的方法。通过for循环变量第一个变量,用和差的方法的到第二个量,这样就只用了一…

网易游戏分享游戏场景中MongoDB运行和分析实践

在游戏行业中,数据库的稳定和性能直接影响了游戏质量和用户满意度。在竞争激烈的游戏市场中,一个优秀的数据库产品无疑能为游戏的开发和后期的运营奠定良好的基础。伴随着MongoDB在不同类型游戏场景中的应用越来越广泛,许多知名的游戏公司都在…

7.Linux - 安装MySQL、Tomcat、Nginx、RabbitMQ、Redis

Linux - 安装MySQL 文章目录 Linux - 安装MySQL一、MySQL 5.71.1 安装1.2 配置 二、MySQL 8.x2.1 安装2.2 配置 三、Tomcat安装3.1 安装 JDK3.2 Tomcat(整的不行) 四、Nginx4.1 安装 五、RabbitMQ5.1 安装 六、Redis6.1 安装 一、MySQL 5.7 1.1 安装 我…