黄仁勋:人形机器人在内,仅有三种机器人有望实现大规模生产

news/2024/11/26 17:09:57/

11月23日,芯片巨头、AI时代“卖铲人”和最大受益者、全球市值最高【英伟达】创始人兼CEO黄仁勋在香港科技大学被授予工程学荣誉博士学位;并与香港科技大学校董会主席沈向洋展开深刻对话,涉及人工智能(AI)、计算力、领导力和创业等。

图片

对话中,提到机器人时,“黄教主”黄仁勋表示:有三种机器人有望实现大规模生产,而且几乎仅限于这三种;这三种机器人分别是:汽车,因为我们在过去150到200年间构建了一个适应汽车的世界;其次是无人机,因为天空几乎没有限制;当然,产量最大的将是人形机器人,因为我们为自己构建了一个世界;历史上出现过的其他类型的机器人都很难实现大规模量产。

同时表示:大规模生产至关重要,因为它能驱动技术飞轮效应;高投入的研发(R&D)能带来技术突破,从而生产出更优秀的产品,进一步推动生产规模的扩大。这个研发飞轮对任何行业都是关键。

11月20日,资深游戏玩家、世界首富马斯克边玩游戏边接受采访,涉及AGI、人形机器人Optimus、猫女机器人、自动驾驶等;

图片

谈到Optimus,马斯克表示:人形机器人Optimus将真正开启下一阶段的技术突破,各种皮肤随便换(“You'll be able to skin Optimus in a white, you know, pretty much anything”)等等。

图片

11月22日,马斯克在 X 平台介绍了Optimus机器人和Robotaxi/Cybercab智驾出租车的定价愿景。

图片

黄仁勋和马斯克都是人形机器人赛道拥护者且私交甚好,两者皆在多个重大场合,表达了对人形机器人未来美好畅想;前者曾表示:“机器人时代已经带来,人工智能的下一波浪潮是机器人技术,其中最令人兴奋的发展之一是人形机器人。”后者曾表示:“人形机器人是当下最大的机遇,并预测未来机器人的数量将远超人类,达到2:1至3:1的比例,将有100亿个人形机器人,甚至是200亿到300亿个,成为人类生活中不可或缺的伙伴与助手。”

当然,两者所代表[英伟达]和[特斯拉]也的确大力布局具身智能赛道,更是全球科技巨头/大厂(谷歌、微软、Meta、OpenAI、华为、腾讯等)入局代表。

[特斯拉]被称为人形机器人赛道引领者,旗下人形机器人Optimus更是行业标杆;[英伟达]从芯片和中间件层面入局,核心目的是打造底层开发生态,成为具身智能领域当之无愧最强“卖铲人”。

具身智能领域研究方向可粗略分为:具身智能大模型(机器人“大脑”)和人形机器人(本体+小脑)。

人形机器人大致分为三大部分:人形本体、高动态性能的控制算法(小脑)、具有泛化性的具身智能及非常接近人的通用人工智能。

具身智能领域初创公司主要分三种:专注于具身智能大模型、人形机器人整机和两者同时涉及;全球范围内,专注于人形机器人本体初创公司最多,初步统计,人形机器人整机公司目前已超150家且持续增加中(其中国内最多,并远超第二名是美国);具身智能大模型因涉及芯片、软件、AI算法,资金投入远高于人形机器人本体,目前更多是科技大厂间博弈,初创公司数量远低于人形机器人本体初创公司。

全球人形机器人本体公司背景可大体分为:汽车制造企业(特斯拉、小鹏等)、机器人企业(优必选、宇树等)、科研院校孵化(银河通用)和互联网背景创业团队(星尘智能、1X等),目前科研院校教授“兼职”创业占据国内人形本体初创企业半壁江山,国外更多是互联网背景创业团队。

全球具身智能大模型(机器人通用“大脑”)公司背景大体可分为:科技大厂(英伟达、OpenAI等)和科研院校背景创业团队(Physical Intelligence、Skild AI等);国外科技大厂早已布局具身智能大模型方向研究(如谷歌、英伟达等;谷歌已完成多次技术迭代,从Saycan到RT-H),目前处于领先地位;国内科技大厂目前也逐步切入具身智能赛道,推出相应具身智能大模型,但目前对具身智能大模型研发投入极其有限,更多以对外投资方式入局。

现阶段,[华为]是国内入局具身智能赛道佼佼者,并有意沿袭[英伟达]路线;[小鹏汽车]、[小米]作为车企,切入人形机器人本体制造,沿袭[特斯拉]路线。

NVIDIA:芯片和中间件层面入局

NVIDIA 在机器人领域的核心目标是打造底层开发生态,主要围绕着大模型、数据、开发平台三大核心领域展开,其终极目标是借助芯片等核心产品,为打造机器人底层开发生态。

2018年,英伟达推出全新硬件、软件、虚拟世界机器人模拟器的NVIDIAIsaac,同时还推出专为机器人设计的计算机平台Jetson Xavier和相关的机器人软件工具包,正式布局智能机器人领域;

图片

2019-2022年,英伟达从底层芯片、到计算平台、到训练与验证,开启智能机器人领域的全方位布局:

  • 2019年,推出lsaac软性开发套件(SDK),为机器人提供更新的AI感知和仿真功能;

  • 2021年,英伟达推出Omniverse平台,支持机器人的协作和模拟,对协作机器人影响深远;

  • 2022年,英伟达推出IsaacNova Orin,其配置的计算和传感器参考平台旨在帮助AMR(自主移动机器人)制造商缩短开发时间并降低成本;

  • 2022年10月,英伟达发布基于Transformer架构的支持多模形态的(仿真)智能体VIMA;

  • 2022年11月22日,英伟达发布具有互联网规模知识的开放式具身智能体-MinDojo;

2023年5月,英伟达发布全新JetsonAGXOrin 工业级模块;

2023年5月25日,英伟达发布VOYAGER智能体,这是第一个由LLM驱动的可以终身学习的智能体,为具身控制生成可执行代码;

2023年10月,英伟达对Jetson平台上的Metropolis和Isaac框架进行有史以来规模最大的软件扩展,用以来满足边缘AI的快速部署需求;与此同时,英伟达还宣布创建Jetson生成式AI实验室;另外宣布推出IsaacROS和IsaacSim软件的全新版本;

2023年10月20日,英伟达发布了Eureka(Evolution-driven Universal Reward Kit for Agent)智能机器人训练工具,本质是一种由大模型驱动的算法生成工具;

图片

2024年2月,英伟达成立通用具身智能体研究GEAR(Generalist EmbodiedAgent Research)团队,目标是在虚拟和现实世界中建立具身智能体基础模型,致力于实现跨多模态、多场景的智能应用;

2024年3月19日,GTC2024大会上,英伟达发布了人形机器人通用基础模型Project GR00T、基于Thor SoC的新型人形机器人计算机Jetson Tho;对Isaac机器人平台进行了重大升级,包括生成式AI基础模型和仿真工具、AI工作流基础设施,新功能将在下个季度推出;

图片

图片来源:英伟达官网

2024年7月29日,在丹佛SiGGRAPH2024大会上,英伟达携带自家生成式AI时代的新王牌-升级版“Nvidia NIM”(Nvidia Inference Microservices)云原生微服务亮相;Nvidia布局的NIM生态系统已经可提供一系列预训练的AI模型。英伟达宣布,帮助开发者在多个领域加速应用开发和部署,并且重点在不同的领域(如理解、数字人、三维开发、机器人技术和数字生物学)中提供的具体AI模型:

图片

Nvidia NIM(Nvidia Inference Model)提供的服务及其具体模型

谷歌:从Saycan到RT-H,软件领军者,步步为营,模型高速迭代

2017 年,提出的Transformer架构,是大语言模型(LLM)的最底层的基座,是大模型的基础;

2022年4月,谷歌推出Say-can模型;将任务拆分成两个部分,先是“Say”,之后是“Can”;Say-can模型首次引入大语言模型帮助理解任务,选择合适的任务规划;但机器人的动作仍然是预设好的,因此只能完成特定任务;底层技能通用性和泛用性较差,只能输出高级指令。

2022年12月,谷歌推出了动作控制的端到端模型RT-1(Robotics Transformer 1);RT-1模型,将任务通过Saycan拆分成具体的任务,然后使用RT-1去执行;本质上是模仿学习,无法超越数据集的遥操作,严格意义上不是“大模型”;

2023年3月6日,谷歌推出多模态视觉语言具身大模型(VLM)PaLM-E;该模型让机器人能够接收持续的多模态的输入,并具有一定的推理能力,具备5620亿的参数模型,但本质为大语言模型,对于动作的完成和指导较弱;

2023年7月28日,谷歌推出全球首个控制机器人视觉-语言-动作(VLA)大模型RT-2 (Robotics Transformer2),可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令;

2023年10月,谷歌推出RT-X,具身智能大数据集Open X加持的RT-2与RT-1(分别为 RT-1-X 和 RT-2-X),创造了新的具身智能大数据集OpenX,并用此数据集训练前述的机器人模型RT-1和RT-2得到新的模型RT-1-X与RT-2-X;

2024年1月,谷歌研究成果三连发数据收集的AutoRT系统、提高决策深度的SARA-RT 和提高泛化能力的RT-Trajectory 模型

2024年3月,谷歌推出RT-H;它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。

图片

Open AI:GPT持续迭代,模型赋能加对外投资

... ... ...

接下来,小编将详细盘点具身智能大模型领域,全球初创公司(PI、Skild AI、Covariant、有鹿机器人、X Square等)介绍及产品进展、全球科技巨头/大厂(谷歌、英伟达、微软、等)现阶段产品进展、人形机机器人本体厂家与科技巨头/大厂合作现状。

... ... ...

本文内容仅展示一部分,更多详细解读,加入知识星球“机器人头条”,查看完整版文章[原创]具身智能大模型赛道:科技巨头技术进展、初创公司盘点,第一款“机器人通用大脑”花落谁家(文字5W+)并深度了解“具身智能&人形机器人”赛道


http://www.ppmy.cn/news/1550098.html

相关文章

Java爬虫:获取商品详情的实践之旅

在当今这个信息爆炸的时代,数据的价值日益凸显。对于电商行业来说,商品详情的获取尤为重要,它不仅关系到产品的销售,还直接影响到用户体验。传统的人工获取方式耗时耗力,而自动化的爬虫技术则提供了一种高效解决方案。…

ISUP协议视频平台EasyCVR萤石设备视频接入平台银行营业网点安全防范系统解决方案

在金融行业,银行营业厅的安全保卫工作至关重要,它不仅关系到客户资金的安全,也关系到整个银行的信誉和运营效率。随着科技的发展,传统的安全防护措施已经无法满足现代银行对于高效、智能化安全管理的需求。 EasyCVR视频汇聚平台以…

量子生成对抗网络

生成对抗网络是由两部分神经网络组成,分别为生成器和判别器。量子生成对抗网络的基本原理与经典的GAN基本相同。 生成对抗网络由GoodFellow等人提出,主要功能是生成伪造的样本。生成器G的输入为一个随机向量z,输出为一个生成样本G(z)。判别器…

Git Github Gitlab与Gitee的关系

Git是代码版本管理工具 -------项目通过Git可以切换到任意代码版本 Github和Gitee是基于Git技术构建的远程仓库网站 -------可以将你的代码仓库提交上去保存 GitHub与Gitee的区别 -------前者是国外建立,资源更丰富,后者是国内建立,免费功能更多 Gitlab和Github功能类似 …

Python人工智能项目报告

一、实践概述 1、实践计划和目的 在现代社会,计算机技术已成为支撑社会发展的核心力量,渗透到生活的各个领域,应关注人类福祉,确保自己的工作成果能够造福社会,同时维护安全、健康的自然环境,设计出具有包…

HarmonyOS NEXT应用元服务开发Intents Kit(意图框架服务)习惯推荐方案开发者测试

意图框架向开发者提供真机测试能力,即开发者可连接设备进行调测。开发者完成代码开发之后,功能正式上架应用市场前,可以在HarmonyOS NEXT设备上面进行自验证,打磨体验。真机测试分为三个步骤:基础信息提供,…

学习threejs,使用设置bumpMap凹凸贴图创建褶皱,实现贴图厚度效果

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.MeshPhongMaterial高…

MySQL之索引与事务

索引 索引的分类 从定义的分类来看,索引分为: 主键索引:必须唯一且不能有null值 唯一索引:必须唯一,但是允许有null值 普通索引:即对一个列添加索引,也称单列索引 联合索引:对多个…