东升国际官网

申请试用
登录
  • hd-share-img01
新闻中心

全球初创 ,刷新19个SOTA!大晓机械人开源空间智能通用模型ACE-Brain-0

2026-03-09

近日 ,大晓机械人结合上海交通大学、南洋理工大学、香港中文大学、香港大学等钻研机构共同推出以空间智能为底层框架、跨分歧具身本体的通用基础模型“ACE-Brain-0” ,正式面向全行业开源。

ACE-Brain-0初次突破汽车、机械人、无人机等分歧本体壁垒 ,贯通空间认知、自动驾驶、低空感知、机械人交互 ,沉新界说了物理世界智能的技术底层逻辑。其机能表此刻涵盖空间认知、自动驾驶、低空感知、具身交互的24 个主题 benchmark 中 ,19 个获切当前模型中的 SOTA(排名第一) 成就 ,全面大幅当先市场主流具身模型。ACE-Brain-0重要对标GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16个驰名模型 ,将19个Benchmark具身模型最强基线正确率相对提升5%-97.8%。在衡量三维认知的MindCube ,以82.1%的成就 ,较最好的开源模型(InternVL3-8B)提升了97.8%。

目前 ,上述模型已利用于大晓机械人具身超等大脑模组A1 ,使搭载具身超等大脑A1的机械狗具备行业初创的端到端自主导航能力 ,并且基于VLA架构实现云端智能交互 ,让机械狗具备理解抽象指令、感知复杂环境、实现复杂工作的端到端关环能力。

在城市人行路等复杂公共场景中 ,搭载ACE-Brain 的机械狗展示出卓越的导航与VLA能力。以图片场景为例 ,面对“估算行人和摩托车间距、判断是否有足够空间导航通过”的需要 ,ACE-Brain赋能机械狗精准实现三大主题作为

依附空间认知能力 ,可精准量化行人和摩托车间距约0.5米 ,为导航决策提供靠得住凭据;通过视觉说话理解 ,清澈解析天然说话指令 ,实现“看—懂—庞妆的连贯交互 ,无需额表定造化指令;在导航决策中 ,既能判断空间足够通过 ,又自动提出“审慎前杏妆的安全建议 ,两全效能与公共安全 ,适配复杂公共场景的移动需要。

ace1.png

搭载ACE-Brain 的机械狗 ,可精准鉴别前方车辆等阻碍物 ,通过空间智能感知路路环境与指标地位 ,预判通畅风险 ,自动判断 “应停下并安全绕杏妆 ,实现空间鉴别与指标预测的高效协同 ,保险复杂路况下的移动安全。

ace2.png

这种能力让机械狗在拥挤人行路、复杂路况等场景中 ,使用壮大的空间智能技术底座 ,通过3D 场景建模、几何干系推理、空间定位等主题能力 ,既能精准感知环境 ,又能通过天然说话交互理解工作 ,实现安全、高效的自主导航 ,为公共巡检、应急响应等场景提供靠得住支持。



空间智能成为跨本体的“通用说话”

为了实现多工作 ,传统的法子是把所有工作数据混在一路 ,而后训练模型 ,渴望模型可能自己悟出来;但是ACE-Brain的思路则更像教育学先让它成立“空间赣妆 ,学会理解世界中的前后左右、远近凹凸、视角变动和地位等空间几何关系 ,而后再去学分歧工作中的具体技术。单一来说 ,就是先学会“怎么看懂世界” ,再学会“怎么实现有关的工作作为”。

大晓机械人团队突破性发现 ,无论自动驾驶车辆、低空无人机还是机械人 ,只管状态差距巨大 ,但都依赖三大主题空间能力三维空间结构建模、几何干系推理、场景演化预测。

基于上述共性 ,大晓机械人初次提出以空间智能作为跨具体态态的“通用说话” ,成为用以衔接分歧物理域的统一认知支架 ,为通用具身智能找到统一底座。

ace3.png

为打造统一的空间智能认知支架 ,ACE-Brain-0以空间信息为多模态自回归架构 ,实现了从单视角图像到多视角视频序列的认知统一处置。

输入层 ,兼容单图、多图、视频等多模态视觉数据 ,搭配天然说话指令作为工作前提 ,覆盖所有具身场景的输入需要;

表征层 ,通过通用视觉编码器提取领域无关的空间特点 ,经MLP 投影器映射为说话模型可理解的视觉令牌 ,并按 “通用、空间、驾驶、航空、具身” 分类组织 ,确?占湫畔⒌慕峁够戆;

推理层 ,由统一的LLM解码器实现跨模态融合推理 ,将空间认知转化为可迁徙的统一暗示 ,使分歧具身场景的知识能基于空间逻辑自由流动。

这一设计的主题优势在于 ,无需为特定场景定造专用? ,仅通过空间智能的“通用表征” ,就实现了跨域知识的天然迁徙 ,彻底扭转了“一个场景一套模型”的传统具身研发模式。

打造全新范式 ,解决跨本体训练困境

统跨域训练面对两大困境 ,一是联合训练易引发梯度滋扰 ,导致各领域能力“稀释”;二是序贯训练则会出现苦难性忘却 ,学了新技术丢了旧能力。大晓机械人初创Scaffold-Specialize-Reconcile(SSR)三阶段训练范式 ,通过“先建共识、再练专长、后融知识”的蹊径 ,美满解决了这一矛盾。

首先 ,Scaffold(框架构建)筑牢通用空间基础。ACE-Brain-0利用大规?占渲悄苁菁盗房占渥夷P ,成立域无关的三维认知先验。这一步就像为所有具身能力打造“通用地基” ,让后续领域训练都能基于统一的空间认知框架发展 ,预防了各领域“从零起头学空间”的沉复劳动。

第二步 ,Specialize(域专精进建)实现隔离优化强化专长。在空间框架上 ,ACE-Brain-0别离独立训练自动驾驶专家、机械人专家等领域模型。每个领域专家模型仅在自身专属数据集上微调 ,预防分歧本体数据带来的梯度矛盾 ,确保每个领域都能获得充分的专业化能力。

最后一步 ,Reconcile(跨域知识和谐)实现数据无关的参数级融合。ACE-Brain-0通过工作向量空间对齐技术 ,在无需原始训练数据的前提下 ,将各领域专家的参数进行整合 ,从而同时结合训练中的优化滋扰挨次训练导致的苦难性忘却。

四大能力初次统一 ,打造“一脑多形”样本

ACE-Brain-0初次在单一模型框架中实现四大主题具身能力的统一:空间认知、自动驾驶、低空感知、机械人交互。这一突破并非单一的能力“拼接” ,而是基于空间智能的深度融合 ,其技术关键在于“共享认知结构”的构建。

ace4.png

通过空间中心化建模 ,ACE-Brain-0让分歧具身场景的认知逻辑实现统一。自动驾驶中的“车距判断”与机械人交互中的“抓取距离估算” ,共享统一套空间距离推理机造;交通场景的“多视图融合”与机械人的“多视角物体鉴别” ,依附一样的跨视角空间对齐技术。

这种“共享认知结构” 使得模型能在分歧观察视角、活动尺杜纂工作语义之间自由切换 ,实现跨域理解与推理能力的天然迁徙。

刷新19个榜单具身模型SOTA

ACE-Brain-0在涵盖空间认知、自动驾驶、低空感知、具身交互的 24 个主题 benchmark 中 ,对标GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16个驰名模型 ,获得了19 个当前具身模型中的SOTA(排名第一) 成就 ,同时将19个Benchmark具身模型最强基线正确率相对提5%-97.8% ,全面超过市场主流具身模型(如天工、北京智源、幼米等)。

空间认知领域:

ACE-Brain-0参加了7项空间认知领域的权威基准评测 ,在具身智能模型堡垒中斩获5项 SOTA , VSI(视觉空间智能)MMSI(多模态空间智能)SITE(空间说话理解)SAT(空间视角变换)Mindcube(受限视角三维建模)代表了分歧维度的主题空间能力。

其中VSI(视觉空间智能)综合评估模型对空间布局、物体关系和尺度的理解与推理能力 ,ACE-Brain-063.3%的成就领跑具身模型 ,验证了其空间认知的通用性;SAT(空间视角变换)调查从分歧视角沉构空间布局的能力 ,ACE-Brain-0以92.0% 的成就 ,相较当前最好具身模型提升了16.9% ,证明其在视角变换下的空间建模能力。

Mindcube(受限视角三维建模)评估有限视角下构建三维生理空间的能力 ,ACE 82.1%的阐发碾压其他具身模型 ,较关源模型 Gemini-2.5-Pro相对提升了42.5% ,较最好的开源模型(InternVL3-8B)相对提升了97.8% ,突破了遮挡和视角限度。

ace5.png

*代表基上述模型复现/下划线代表次优阐发/黑体代表最优阐发

自动驾驶领域:

ACE-Brain-05个自动驾驶benchmark 上均获切当先阐发 ,别离是MME-RealWorld(真实驾驶场景理解)MAPLM(地图与路路结构理解)DriveAction(驾驶行为理解)NuscenesQA(多视图动态场景理解)NuPlanQA(规划与交通规定理解) ,尤其在真实驾驶场景理解(MME-RealWorld)和规划推理能力(NuPlanQA) 等关键能力上实现显著提升。

其中MME-RealWorld(真实驾驶场景理解)重要评估模型在真实交通环境中的 多模态驾驶场景理解能力。ACE-Brain-0以71.2%的成就 ,相比当前最强具身大脑模型相对提升18%。

NuPlanQA(规划与交通规定理解)沉点调查模型在自动驾驶规划工作中的 交通讯号理解与车辆状态推理能力。ACE-Brain-0获得91.7%的成就 ,决策正确率超过所有具身模型基线 ,Pelican-VL-7B模型相对提升近10%。

ace6.png

*代表基上述模型复现/下划线代表次优阐发/黑体代表最优阐发

低空感知领域:

ACE-Brain-0在5个低空视觉benchmark上均获得显著当先阐发 ,蕴含UrbanVideo-Bench(城市级无人机场景理解)AirCopBench(空中交通关下讽解和多无人机视角协同理解)AVI-Math(空中几何推理与数值推算)Airspatial-VQA(低空空间视觉问答)HIRVQA(遥感视觉问答) ,尤其在城市级无人机场景理解(UrbanVideo-Bench)和空中交通关系推理(AirCopBench) 等关键能力上实现大幅提升。

其中UrbanVideo-Bench(城市级无人机场景理解)重要评估模型在城市级无人机视频中的大尺度场景理解与地标鉴别能力。ACE-Brain-0以56.9%的成就 ,相比当前最强具身大脑模型相对提升51.7%。

AirCopBench(空中交通关下讽解和多无人机视角协同理解)重要调查模型在复杂城市路路拓扑下的空中交通监控与车辆关系推理能力。ACE-Brain-0以70.3%领跑具身模型 ,相比当前最强具身大脑模型相对提升35.4%。

AVI-Math(空中几何推理与数值推算)重要评估模型在无人机视角下进行 几何推算与结构化数值推理能力。ACE-Brain-0相比当前最强具身大脑模型提升1.3个百分点 ,达35.0%。

ace7.png

*代表基上述模型复现/下划线代表次优阐发/黑体代表最优阐发

具身交互领域

ACE-Brain-04个具身benchmark上均阐发出不变优势 ,蕴含RoboVQA(机械人操作理解)EmbSpatial(具身空间理解)EgoPlan-Bench2(具身工作规划)EB-Habitat(具身导航理解) ,尤其在机械人操作理解(RoboVQA)等关键能力上实现显著突破

RoboVQA(机械人操作理解)重要评估模型对机械人操作行为与物体交互过程的理解能力。ACE-Brain-0以64.6%的成就远超同类模型。

EmbSpatial(具身空间理解)重要评估模型在具身环境中的 空间关下讽解与环境结构认知能力。ACE-Brain-0成就达77.3% ,相比当前最强具身大脑模型提升1个百分点。

EgoPlan-Bench2(具身工作规划)重要调查模型在第一视角复杂工作中的长时序工作规划能力。ACE-Brain-0成就达55.3% ,相比当前最强具身大脑模型提升1.9个百分点。

EB-Habitat(具身导航理解)重要调查模型在仿真具身环境中的导航决策与实现齐全工作的综合能力。ACE-Brain-0成就达42.3% ,相比当前最强具身大脑模型提升2.3个百分点。

ace8.png

*代表基上述模型复现/下划线代表次优阐发/黑体代表最优阐发

共享空间智能成为具身智能新世界观

一个模型 ,一套参数同时在些工作上卓越阐发极度有意思。它注明“空间优先”不是一句美丽标语 ,而是会真实扭转跨状态进建成效的设计准则。尤其是具身交互那条曲线更耐人寻味:为什么直接学会失败 ,而先学空间再学会成功?直观上看 ,由于当智能面子对真实世界时 ,作为战术往往依赖于对环境结构的正确理解。若是连空间关系都没有不变学会 ,那么所谓“具身能力”就很容易造成表表仿照;反过来 ,若是先把握了共享的空间骨架 ,再去学具体作为 ,就像先学会地图再学开车 ,好多问题会忽然迎刃而解。

更沉要的是 ,汇报并没有满足于“尝试上可行” ,还试图回覆:为什么空间真的适合做共同底座? 在附录理论部门 ,汇报把这个设法大局化为一个“可复原的空间scaffold”:模型的内部暗示中 ,应该存在一个状态无关的共享几何变量 ,它承载三维布局、相对位姿、深度和拓扑等信息。若是训练后这个共享变量可能被不变“解码”出来 ,那么它就不再只是一个吞吐特点 ,而会造成跨分歧身段都能复用的空间主题。理论中进一步指出 ,后续分歧系统必要进建的 ,更多会是各自身段特有的感知、动力学和节造部门 ,而不是反复从零进建几何世界。

这套理论把一个通俗问题讲分了然:为什么是“空间” ,而不是此外? 由于空间不是一个通常工作 ,它更像是所有物理智能共同依赖的坐标系。无论是车在车路中判断前后左右 ,还是无人机从鸟瞰视角推理路路关系 ,还是机械人在房间里判断物体地位 ,它们都必须吓椎有一种内部“空间地图”。ACE-Brain-0就是把这种“内部地图”从隐含如果提升成了步骤设计的起点。

这一技术蹊径确当先性 ,不仅在于解决了当前具身AI 的主题痛点 ,更在于为将来通用物理世界智能的研发提供了可复用的底层框架。ACE-Brain 真正让人兴奋的处所 ,不是某一个分数超过了谁 ,而是它沉新界说了“通用具身智能”应该从哪里起头。从前我们时时把“通用”理解为一个模型会做好多工作;而 ACE-Brain 让人看到另一种可能:真正的“通用” ,或许不是工作列表越来越长 ,而是先找到这些工作背后的共享结构?占 ,就是它给出的答案。ACE-Brain提出了一种新的具身智能世界观:分歧身段不愿定要重新学起 ,它们能够先共享一个关于世界的空间理解 ,再在这个基础上长出各自的能力。将来的具身智能体 ,无需再为单一状态定造模型 ,只需基于ACE-Brain的空间智能底座 ,就能急剧适配新的物理本体与利用场景。从自动驾驶到低空经济 ,从工业机械人到家庭服务设备 ,展示出面向真实物理世界多场景的平台潜力。

该技术成就已上传:

https://arxiv.org/abs/2603.03198

Project Page:

https://ace-brain-team.github.io/ACE-Brain-0

Code:

https://github.com/ACE-BRAIN-Team/ACE-Brain-0

Hugging Face:

https://huggingface.co/ACE-Brain/ACE-Brain-0-8B

产品试用
填写此单一表格 ,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00 ,13:00-18:00
合作同伴招募
【网站地图】