如何理解真实世界的物理规律?大晓机器人开悟世界模型实现具身智能数据训练价值最大化

原创出品 | 「创业最前线」旗下「子弹财经」

作者 | 烨楠

编辑 | 闪电

美编 | 邢静

审核 | 颂文

大晓机器人给出了具身智能“大脑”的新解法。

在产业的演进中,具身智能,既需要快速、稳定的执行能力,也需要对环境、因果与时间的持续理解。在这一层面来说,VLA(视觉语言动作模型)更像一套高效的执行接口,而世界模型则可能更接近基于真实物理世界的底层认知系统。

12月18日,大晓机器人在上海举办发布会,正式发布行业首创的ACE具身研发范式、首个开源且商业应用的开悟世界模型3.0(Kairos 3.0)、让具身本体拥有自主空间智能的具身超级大脑模组A1,并与多个行业伙伴展开合作,形成产业生态体系。

1、技术范式革新:从“为难机器”到“以人为中心”

2024年,商汤科技开始实施“1+X”战略,开启以生成式AI为核心业务,重组拆分的生态企业矩阵聚焦各自场景化AI和细分市场的发展模式。

而近日发布的大晓机器人,正是商汤科技在布局具身智能产业的核心战略落子。

大晓机器人由商汤科技联合创始人王晓刚担任董事长,华人顶级AI科学家陶大程担任大晓机器人首席科学家。大晓机器人的名字也便是从两位组建者的名字中各取一字组成。另外,这个名字还涵盖了“大千世界,晓识万象”的寓意,大晓希望让机器人真正洞察并理解万象规律,才能使其学会与世界精准交互。

这正引出了大晓机器人的使命:让机器人拥有“聪明的大脑”。

以往的具身智能研发多以机器人本体为中心,通过遥控操作采集数据,导致成本高企、效率低下,且模型难以泛化。特斯拉和Figure AI的视觉学习新路径,推动了具身智能的数据采集从“遥控操作”向“自主学习”的范式转变。

特斯拉采用的视觉方案的思路源于自动驾驶领域的启发,但自动驾驶与具身智能存在本质差异:自动驾驶场景中不会发生物理接触或交互,而在具身智能场景下,无论是人还是机器人,都需要与周围物体和环境产生物理接触,因此必须纳入其他维度的信息。

在过去长期的研究中,人体工程学、力学等领域已对人体受力、触觉相关信息有了深入研究,这为环境式采集提供了研究基础。此外,基于传统的技术路径中,行业目前仍然面临着数据荒的顽疾。

目前,具身智能领域的真机数据量级仅为10万小时,而智能驾驶如特斯拉FSD V14每日训练量相当于500年人类驾驶经验。这一差距源于“以机器为中心”的局限:传统遥操就像让人去迁就机器,采集员需遥控各类机器人,成本高昂,数据绑定硬件,无法通用。

基于此,大晓机器人开辟出一条不同于传统路径的技术路线:“以人为中心(Human-centric)”的ACE具身研发范式,为行业发展带来根本性的革新。ACE具身研发范式中环境式数据采集可实现一年千万小时的数据收集,开悟世界模型3.0则不断放大真实数据价值,使其达到上亿小时数据规模的效果。

这种ACE范式,通过环境式采集真实世界中人的行为与环境交互数据,构建能够理解物理规律、因果关系与长期记忆的世界模型,再将这一“大脑”迁移到不同机器人本体之上。这意味着,机器人不再被限定在某一具体形态或单一任务中,而是试图获得跨场景、跨本体的通用能力基础。

举个例子,在即时零售仓储场景中,该方案已实现多视角数据采集,覆盖数万种SKU,完成仓储分拣与打包全流程。在居家、零售等多元场景中,ACE范式也已实现对人体自然行为、物品交互轨迹的精准捕捉,甚至能复现遥操作范式下难以实现的生鲜抓取、精细化放置等任务。

但这种范式,要求对物理世界具备更强的建模能力,也要求模型能够处理高度复杂、未结构化的数据。换言之,ACE范式获取的,可能不是更容易的数据,但一定是更接近真实世界的数据。

从行业角度看,具身智能的数据采集也正在经历一次认知与技术范式的转变。因为具身智能行业稀缺的,除了数据本身,还有能够让数据形成通用智能的路径。

2、开悟世界模型3.0开源,形成产业合作迭代

以环境式采集数据为基,大晓机器人发布了首个开源且商业化应用的世界模型——开悟世界模型3.0,形成跨本体的统一世界理解框架。

世界模型的核心在于,它致力于在AI模型中建立起真实物理世界的运行规律,区别于VLA以语言为中介连接感知与动作,依赖语义推理执行指令的机制。

简单来说,VLA模型解决的是“此刻该做什么”的问题。它将视觉与语言信号迅速转化为动作指令,在短时任务、确定性场景中具备显著优势。这种能力对于机器人“可用性”的提升至关重要,也是当前行业得以快速验证商业场景的重要基础。

而世界模型所关注的,是“为什么要这样做,以及接下来可能发生什么”。它并不追求直接生成动作,而是通过对物理规律、因果关系与时间演化的建模,为决策提供背景与边界。没有世界模型,机器人很难在长时序任务中保持一致性,也难以在环境变化时进行有效调整。

在大晓机器人看来,具身智能“大脑”更合理的结构是,让世界模型作为认知与预测层,负责理解世界、生成可能性空间;再由VLA或类似执行模型,负责将决策转化为具体动作。这种分层结构,在自动驾驶、复杂系统控制中已被反复验证。

作为首个“多模态理解—生成—预测”的世界模型,开悟世界模型3.0能够深度理解真实世界的物理规律与人类行为的底层逻辑,让模型能形成“知其然,知其所以然”的思维链。

多模态理解,即通过图像、视频、相机位置、3D轨迹,以及力学元素、触觉等一系列内容的感知与融合,与物理世界建立关联;其次是多模态生成,在理解物理世界后,需要生成复杂的具身行为,以及可训练的数据和场景;最后是多模态预测,根据不同机器人本体、观察到的图像及视频状态,可预测机器人的后续动作。

这种“理解-合成-预测”的融合能力,正是强大的开悟世界模型3.0的核心。更重要的是,大晓机器人选择将这一世界模型进行开源,向全行业开放API。

通过云平台与API开放,开悟世界模型3.0能够吸引开发者反馈,丰富场景库。而开源换来的社区影响力也更为关键,这一策略,将加速大晓机器人在具身智能产业的生态构建。

目前,开悟世界模型3.0已与沐曦股份、壁仞科技、中科曙光等多款厂商国产芯片成功适配并展开合作,帮助世界模型在长时序、多视角动态场景下进行完整训练与推理闭环,共同推进具身模型在国产芯片生态中的研发与应用。

3、具身超级大脑模组A1,从机器狗走向多元商业场景

选择以世界模型为长期核心,并不意味着放弃商业现实。

当天,大晓机器人正式推出了具身超级大脑模组A1。基于大晓机器人团队领先的纯视觉无图端到端VLA模型优势,搭载具身超级大脑模组A1的机器狗无需预采高精地图即可适应复杂、动态、陌生环境。依托模型的视觉理解和运动规划能力,机器人能实现动态环境下鲁棒、安全、合理的路径生成,真正实现“自主行动”。

大晓机器人已经与智元等本体公司展开合作,搭载了具身超级大脑模组A1的三款机器狗在现场进行展示。

具身超级大脑模组A1具备拥有云端交互能力,依托云端模型平台,能实时解析自然语言指令与图像语义的意图关系,像人一样理解复杂的现实世界,生成可执行的中间指令(如“前进50厘米”“绕过障碍”“靠近目标”),再由底层控制器精确执行。这使得机器狗不仅能够在复杂环境中完成自主巡检、跟随、避障等多样任务,而且能根据自然语言指令精准完成任务。

此外,大晓机器人结合Insta360全景感知方案与商汤方舟通用视觉平台,构建起全方位、高精度的环境感知体系。不仅能覆盖超10个行业,还可实现超150个智能化应用场景适配,覆盖从日常行为分析到特殊风险预警的全需求。

目前,大晓机器人已经通过具身超级大脑模组A1,将阶段性能力落地到安防、巡检等To B场景,并可实现长期稳定工作,让具身智能真正具备了走进产业一线的实用价值。

这些策略,也在为世界模型的发展铺设行业生态,并争取成熟的时间窗口。通过真实场景持续运行,世界模型得以获得更多反馈,数据体系也随之扩展。另一边,VLA等执行模型在其中承担着效率加速器的角色,使系统在当前阶段依然具备实用价值。

以具身超级大脑模组A1为开端,大晓机器人希望建立起从四足机器人短期规模化的商业场景,到中期聚焦物流仓、前置仓等工业与商业服务场景,长期指向家庭场景的阶段性商业化目标。

在具身智能的技术路径尚未收敛、规模商业化仍处于探索阶段的当下,大晓机器人的意义,或许并不在于给出一个终极答案,而是提供了一种更完整的技术组织方式:让执行模型跑在前面,让认知模型决定前进的方向——大晓机器人指出了一条让具身智能从单纯的“会动”走向“可用”的商业化落地必经之路。


nginx