星空体育首页app:人形机器人大脑:商业化焦点大规模量产之关键

来源:星空体育首页app    发布时间:2025-11-25 01:21:11

星空体育注册网:

  最近两个月人形机器人板块连续调整,个股的幅度可能达到20%左右,但周五我们正真看到特斯拉链的核心公司有明显的企稳迹象,比如荣泰、长盈、三花、五洲、伟创等都出现了逆势上涨,成为盘面少有的红盘股票,这一些企业我们在专栏前面都重点跟踪过。

  话说回来,过去两个月机器人的下跌,我们大家都认为最核心的因素,还是市场对机器人量产进度没有到达预期的一种表态,最主要的就是此前对特斯拉量产的预期过高,三代擎天柱推到明年一季度量产实际上不及市场预期。

  而制约机器人量产的两个核心因素,一是灵巧手;二是机器人大脑,也就是自主行动能力。

  包括马斯克最近在美沙投资论坛提到,目前人形机器人有些噱头,还没有真正有用的人形机器人。

  宇树王兴兴也谈到,机器人当下和未来所面临的最关键挑战是机器人大模型,这也是限制人形机器人大规模应用的最大阻碍。

  也就是说,机器人大脑是决定机器人大规模量产核心中的核心,机器人大脑的进展也将间接影响机器人板块行情的节奏,这是我们这期重点要讲的。

  从结构来看,人形机器人由大脑、小脑、肢体三部分所组成,大脑由高性能计算平台和AI大模型组成,负责感知、理解、学习和决策;小脑基于自动控制、操作系统等技术,负责复杂环境下的运动控制;肢体则是基于多种传感器,根据指令做出一定的反应,实现高动态,高精度的运动。

  机器人大模型是人形机器人实现高级认知和决策的关键技术,要求具备实时交互能力、多模态感知能力、自主可靠决策能力、涌现和泛化能力等。

  AI大模型是从神经网络、深度学习发展而来,LLM大模型的核心是基于大规模文本数据训练的Transfomer架构,实现对自然语言的深度理解、生成和推理,但是无法直接处理图像、视频等视觉信息,GPT、文心一言都属于LLM模型。

  VLM是多模态大模型,突破了文本的限制,既可以识别文本,也可以识别图像/视频,VLM的架构通常由视觉编码器(处理图像、视频)和语言模型(处理文本)共同组成,让视觉特征与语言特征能相互理解,但无法处理物理世界的动作。

  RT-1是机器人VLA大模型的早期探索;Google deepmind在2023年7月提出的RT-2是全球首个VLA,标志着VLA的范式正式确立,是人形机器人史上极大的一步。

  RT-2在RT-1上进行了升级,不仅包含了视觉、语言、机器人动作三个维度,还将机器人动作离散化为文本token,与视觉语言数据联合训练,并将这类模型称为VLA模型。

  第一条是端到端VLA技术路线,采用单一模型直接从感知到动作端到端学习,虽然具备一定泛化能力,但一般适用于短程任务,在复杂长程任务上存在局限性。

  第二条是大脑+小脑分层技术路线,是目前相对成熟的主流方向,该路线以多模态大模型作为“大脑”负责高层决策和任务规划,“小脑”模型处理具体的运动控制和执行任务,通过分层协作实现更强任务处理能力。

  第三条是世界模型技术路线,代表最前沿的探索方向,旨在构建物理世界的完整建模,通过预测未来来优化动作决策。

  北大助理教授仉尚航表示,目前VLA还是一个非常难的问题,有很多研究的空间。世界模型的研究仍处于特别早期,大小脑技术路线能轻松实现模块化、可泛化和可解释的一些优势。

  除此之外,类脑智能和脑机接口等创新技术也为人形机器人大脑解决方案带来另外的可能。

  首先是训练数据难以获得,不同于文字、图像等数据能够最终靠互联网轻松爬取,机器人大模型需要的是机器人与物理世界交互的行为数据,这类数据稀缺且获取门槛极高。

  机器人数据可大致分为真实数据和仿真数据,真实数据训练效果好,但是采集成本高,并且格式不统一,不同机器人不兼容;仿真数据可以大规模生成,但训练出来的模型往往与现实不适应,特别是柔性物体操作和复杂环境建模时,仿真与现实的差距暴露无遗。

  另外就是机器人大模型训练难度大,训练方法有待探索,目前多采用世界模型、遥操、仿真迁移、模拟训练等方法,都有局限性,没有办法获得通用泛化能力。

  机器人操控的本质,是与物体发生物理接触,而接触这个行为,会让问题的难度呈指数级上升。

  宇树王兴兴强调,目前机器人大模型的发展进度,类似于ChatGPT发布前1-3年的阶段,业界已经发现了类似的方向和技术路线,但还没人真正将其做出来,这一临界点最快可能在未来的1-2年实现,慢的线年。

星空体育首页app

服务热线:

0750-3083681

星空体育首页app诚意邀请国内外客商莅临参观指导,欢迎惠顾!

打造并培养了一支经验丰富的工程设计团队,可以自行研制新型产品,不断与国际标准接轨。