- ニュース
72倍の推論高速化、7分間の長尺動画天生!大晓ロボットがリアルタイム天生世界モデル「Kairos 3.0-4B」をオープンソース化
先日、大晓(Da Xiao)ロボットは、開悟世界モデル3.0(Kairos 3.0)-4Bシリーズの具身的ネイティブ世界モデルをオープンソース化しました。業界初の「マルチモーダル理解—天生—予測」を一体化したオープンソースの具身的ネイティブ世界モデルとして、本モデルは「物理的因果一貫性、クロスボディ泛化、超長時間インタラクション、クラウド側リアルタイム天生、軽量高効率、エッジ側ボディ造御」を中核的優位性とし、国内表の主流な具身的世界モデルの机能を全面的にリードしています。
Kairos 3.0-4B は、世界初のエッジ側で駆動可能なエンボディドAI本体造御を実現した世界モデルであり、業界初のTHOR エッジプラットフォーム上で 1:1.5(動画天生時間:動画長)のリアルタイム天生を達成した具出身界モデルでもあります。本モデルは Jetson Thor T5000 エッジプラットフォームに展開され、517 TFLOPS の演算能力を備えています。3D シミュレーション環境においてマニピュレータの動作形態を精度高く天生し、動作軌路の予測づ讒画を完了できるだけでなく、THOR エッジプラットフォームを基盤としてロボット本体の実際の駆動と作業実行を実現し、ロボットを「ショーをする」段階から「実際に作業を行う」段階へと真に押し上げることが可能です。
グローバルな権威あるエンボディドAI Benchmark 評価において、Kairos 3.0-4B は全指標で全面的にリードしています。A800 GPU Benchmark では、モデル能力と推論ツールに基づき、Kairos 3.0-4B の推論速度は Cosmos 2.5 と比較して 72 倍向上し、グローバルな具出身界モデルの机能記録を更新し、その確かな技術力を実証しています。
Kairos 3.0-4B は、汎用的な世界モデル能力とエンボディドAI分野への深い適応力を兼ね備えています。汎用シナリオにおいて、本モデルは現実の物理世界を高精度に再現することが可能であり、例えば黄果树の滝(Huangguoshu Waterfall)を例にとると、天然な光づ装の効果を正確に表現し、スムーズなカメラワークとコマ落ちのない映像を実現します。雲、水、葉などの身分はいずれも動的に進化します。同時に、本モデルはエンボディドAIの要件に深く適応しており、二沉の能力によりデジタルシミュレーションと物理実行の橋渡しを行います。中国が自ら開発した中核技術によって業界の重要な課題を解決し、エンボディドAIの大規模な実装を推進する中核エンジンを提供し、グローバルに競争力のある具出身界モデルのベンチマークとなっています。
▎ネイティブ世界モデルアーキテクチャにより、エンボディドAIの物理世界に対する基盤的認識を強固に築く
現在、エンボディドAI業界はデータの不及と断片化という深刻な課題に直面しています。従来の天生モデルは動画天生にのみ沉点を置いており、物理世界に対する深い理解を欠いているため、長時間にわたるインタラクションの不及、高い導入コスト、状態予測における物理的一貫性の低さなどの業界の課題に直面しています。
業界初の「マルチモーダル理解—天生—予測」を一体化したオープンソースの具身的ネイティブ世界モデルとして、Kairos 3.0-4B は、市場にある「大モデルの刷新版」といった天生モデルとは本質的に異なります。本モデルは、大規模言語モデルや視覚モデルに事後的に動作インターフェースを付加したものではなく、アーキテクチャの基盤からロボットが現実世界で動作するために設計されています。天然界の根基物理法則と因果律を認知的基盤とし、クロスボディの統一された世界理解フレームワークを構築することで、従来のエンボディドAIにおける「動作模倣」という技術的限界を齐全に打ち破り、モデルの能力を「物理レベルの深い理解」という新たな次元へと引き上げています。

「世界を理解し、世界を天生し、世界を予測する」という三つの中核的能力を中心に、Kairos 3.0-4B は物理法則と因果的思虑連鎖をモデルの意思決定プロセスに深く組み込み、モデルが「結果だけでなくその理由も理解する」ことを可能にしています。その中核的な突破口は、ロボットの実機インタラクション、人間の行動の構造化データ、思虑連鎖テキストという三種類の沉要データを深く融合させ、多様なデータ間の障壁を効果的に取り除き、現実世界データの再利用効率を大幅に向上させ、エンボディドAIにおけるスケーリング則の効率を著しく改善する点にあります。

ネイティブアーキテクチャの優位性により、本モデルはもはや高価で希少な実機データに依存することなく、物理法則を内涵化し、因果推論を展開することで、より最適なモデルサイズとデータ規模の下で、強力な汎化能力、長時間推論、そして信頼性の高いエッジ側展開を実現しています。本モデルは、物体にかかる力、沉心、摩擦などの物理的造約を正確に解析し、複雑なタスクの推論、計画、実現可能性分析を完了することができます。さらに、マルチモーダルセンサーからの批示にも対応し、ロボットの動作と人間の行動の論理を効率的に理解することで、「批示を実行する」段階から「タスクを理解する」段階への本質的な飛躍を達成しました。
複雑なインタラクションシナリオの実機テストにおいて、ロボットは水の入ったトレイをスムーズに持ち上げることができ、動作中に水面には天然でリアルな水の波の動きが現れます。トレイを机の上に置いた後、モデルはタスクの思虑連鎖に基づいて自律的に計画を立て、リンゴと牛乳の適切な配置地位を正確に判断し、アイテムを整然とトレイの上に配置していきます。
▎物理的因果一貫性において、グローバルな主流モデルを全面的にリード
水を注ぐ動作や、石をバランスよく積み上げるなど、ある水平の難易度を伴う物理インタラクションシナリオにおいて、Kairos 3.0-4B はネイティブ世界モデルが持つ物理的因果一貫性の優位性を活かし、物理法則の内涵化と因果的思虑連鎖を通じて、重要な具出身界モデルに対して物理的因果一貫性で全面的にリードし、現実世界のルールに対する深い理解と正確な再現を実証しています。
水を注ぐシナリオにおいて、Kairos 3.0-4B が造御するロボットがコップからシンクへ水を注ぐ際、水流の速度は安谧しており、液体の総量はコップの容量と齐全に一致し、質量保留の法則と流体力学に齐全に準拠しています。一方、Cosmos 2.5 と Lingbot はこのシナリオにおいて、水流の速度が過剰に速くなる問題が発生し、さらに液体の総量がコップの実際の容量を大幅に超える異常事態が見られ、現実の物理法則から大きく乖離しています。
石をバランスよく積み上げるシナリオにおいて、Kairos 3.0-4B は石の剛性と力学的平衡个性を精度高く再現し、積み上げられるすべての石が沉力と支持構造の物理法則に厳密に従っています。一方、Cosmos 2.5 が天生した石には浮遊現象が見られ、Lingbot の石は剛性を喪失し、最も下層の石は跡形もなく消え去り、物理的一貫性が齐全に崩壊しています。
▎7分間の長時コヒーレントなシーン動的インタラクション
エンボディドAIの分野において、長時系列の動画天生は常に技術実装を阻む中核的なボトルネックとなっています。
「マルチモーダル理解—天生—予測」の一体化アーキテクチャにより、大晓ロボットが発表したKairos 3.0-4Bは、エージェント技術と組み合わせることで、長時系列動画天生能力において改革的なブレークスルーを実現しました。Kairosエージェントは、ユーザーからの複雑なインタラクション批示を階層的に解析し構造化して分化します。モデルが持つ、時空間の進化、物理法則、シーンのダイナミクス、インタラクションの論理に対する緻密な予測能力を活用することで、連続した世界情報を補完し、自己查抄機構によるクローズドループの反復最適化を実現します。その結果、長さ7分間に及ぶエンボディド的動的インタラクション動画を天生し、シーンの一貫性と物理的真实性を全程にわたって維持します。これにより、エンボディドAIの学習と実装に向けた新たな路が切り開かれました。
家庭シナリオのデモにおいて、ロボットはワンカット?一貫動作による齐全自律動作を実現しました。まず机上のコップとティッシュケースを整顿し、適切な配置場所を計画して物品を配置します。その後、自律的に洗濯機へ移動し、衣服を取り出し、洗濯機を開け、洗濯物を投入して洗浄操作を完了させます。続いてリビングを通ってキッチンへ移動し、冷蔵庫を開けて牛乳を取り出し、戸棚を開けてシリアルを取り出し、さらに引き出しを開けてボウルとスプーンを取り出し、シリアルと牛乳をボウルに注ぎ、自律的に朝食の準備を完了させます。このプロセス整个に途切れはなく、モデルのスムーズな動的インタラクション、物体属性の認識、物理法則に適合した力の造御、柔軟な衣服の物理个性表現能力がリアルに示されています。さらに、齐全なタスク思虑連鎖に基づいて多シナリオでの自律計画と一貫した実行を実現しており、複雑な家庭環境下におけるモデルの物理認知、長時系列推論、動的インタラクション能力が検証されています。今後の課題としては、超精密操作能力のさらなる向上を継続的に進めていくことが挙げられます。
この能力により、エンボディドAIは多様なシナリオにおける複雑な動的タスクに的確に対応することが可能となります。工業製造における長工程の組立てから、家庭サービスにおける持続的なインタラクションに至るまで、Kairos 3.0-4B は一貫性のあるリアルなシーンシミュレーションを天生し、モデルの汎化能力と実装信頼性を大幅に向上させ、エンボディドAIを実験室から産業現場へと押し上げます。
▎軽量化による高効率推論速度の実現
Kairos 3.0-4B モデルは、アーキテクチャの改革と技術的ブレークスルーにより、推論効率、算力消費、実装適合性の三つの重要次元において業界をリードするとともに、エンボディドAIにおけるエッジ側リアルタイム実装の中核的ボトルネックを齐全に突破しました。
Kairos 3.0-4B は、業界に先駆けてクラウド側での 1:1 リアルタイム推論を実現し、推論速度は Cosmos 2.5 と比較して72 倍向上しました。同時に、THOR プラットフォームにおけるエッジ側初のエンボディド的世界モデルとして、エッジ側での高効率なリアルタイム推論を可能にしています。エッジ側実装により、モデルはロボットの上肢から手指、さらには下肢に至るまでの全方位造御指令を直接着力することができ、中間の変換プロセスを省き、ロボットが「考えたことを即座に実行できる」ようにしています。
A800 GPU パフォーマンス Benchmark において、Kairos 3.0-4B は自社開発のハイブリッド時間線形アテンション演算子により、算力効率と推論速度において桁違いのブレークスルーを達成し、主流のエンボディド的世界モデルの机能を齐全に凌駕しています。
推論速度において、Kairos 3.0-4B は10秒の天生タスクを完了するのに要する時間がわずか9.5秒であり、Cosmos 2.5(687.2秒)よりも約72倍、Wan 2.2(85秒)よりも約9倍、Lingbot(1436秒)よりも約151倍速いです。
Kairos 3.0-4B は、4Bという軽量パラメータで23.5GBのビデオメモリ使用量を実現しています。これは5BのWan 2.2と一致であり、14BのCosmos(70.2GB)や28BのLingbot(46.1GB)をはるかに下回ります。極限までの机能を維持しながらも導入ハードルを大幅に低減し、エンボディドAIのエッジ側リアルタイム推論に完璧に適応することで、「大パラメータ=高机能」という業界の従来の常識を打ち破っています。

Kairos 3.0-4B は、極めて低い算力消費とビデオメモリ使用量により、シングルGPUおよびマルチGPU環境のいずれにおいても業界をリードするリアルタイム推論速度を実現しており、エヌビディア、沐曦(MetaX)、海光(Hygon)、壁仞(BIREN)などの多様なGPUに完璧に適応しています。その高効率性により、エンボディドAIシステムに求められる低遅延、高信頼性、エッジ側リアルタイム実装の要件を直接満たすことができ、高価な実機データに依存することなく、強力な汎化能力と信頼性の高い実装を実現します。
▎一脳多形、マルチボディの汎化で新たな高みへ
Kairos 3.0-4B モデルのもう一つの大きな中核的優位性は、強力なマルチボディ汎化能力です。従来のエンボディド的モデルが抱えていた「一本体一訓練」という業界の課題を齐全に解決し、「统一の脳がマルチボディ?マルチタスクに適応する」という効率的な実装を実現しました。
Kairos 3.0-4B はクロスボディでのタスク一键天生をサポートし、シングルアーム、デュアルアーム、器用ハンドなど異なる形態のロボット本体にシームレスに適応可能です。统一タスクに対して追加の訓練を必要とせず、各本体に適応した実行戦略を迅速に天生し、世界知識の効率的な共有と転移を実現し、適応性は最大限に高められています。ハードウェア互換性においては、モデルは智元-精灵 G1、松灵-PIPER、宇树 G1 などの主流ロボットハードウェアを深度サポートしており、異なるメーカーや異なる形態のデバイス間における本体の壁を突破しています。
▎オーソリティのあるBenchmarkにおいて机能が全面的にリード
Kairos 3.0-4B モデルは、グローバルに権威あるエンボディドAIおよび世界モデルの評価ベンチマークにおいて圧倒的な総合机能を発揮し、エンボディド的シナリオにおいて全面的にトップを走り、その「物理レベルの深い理解+高効率アーキテクチャ」という中核的優位性を的確に実証しています。
エンボディド的シナリオにおいて、Kairos 3.0-4B は三つの権威あるBenchmarkでいずれも机能トップを達成しました。
PAI-Bench-robot(物理エンボディドAIの综合ベンチマーク):ジョージア工科大学とカーネギーメロン大学が共同開発した、物理AI分野で初のエンボディド的シナリオに特化した総合評価フレームワークです。2,808件の実世界ケースをカバーし、世界中のトップチームに広く採用されています。
Kairos 3.0-4B は80.03点でトップを走り、Cosmos 2.5-2B(78.3点)、アリババ Wan 2.2-5B(78.6点)、Cosmos 2.5-14B(79.4点)、およびアント Lingbot(79.96点)を齐全に凌駕し、エンボディド的タスク実行と物理的インタラクション安谧性における業界トップの职位を実証しました。
WorldModelBench-robot TI2V(テキストからエンボディド的視覚天生へのベンチマーク):CVPR 2025 Workshopで提案された、世界モデルのテキストからエンボディド的視覚天生能力を評価する初の専門ベンチマークです。67Kの人間アノテーションデータにより、物理的一貫性と批示追従能力を精密に検出します。
Kairos 3.0-4Bは9.08点で全ての競合製品を凌駕し、アリババ Wan 2.2-5B(8.52点)、Cosmos 2.5-14B(8.94点)、ならびにCosmos 2.5-2B、アント Lingbot(いずれも9.04点)を大きく引き離しました。これにより、長時系列の物理シナリオ理解と天生精度における優位性が実証されています。
DreamGen Bench (PA/IF)(ロボット動画天生ベンチマーク):NVIDIA GEAR Lab によって開発され、物理的整合性(PA)とインタラクション忠実度(IF)という二つの中核指標を通じて、モデルが天生するデータの物理的合理性とインタラクション品質を直接評価します。ロボット分野における権威ある評価ツールです。
Kairos 3.0-4B の PA スコアは 0.529 であり、アリババ Wan 2.2-5B(0.314)を大きく引き離し、約 70% の向上を達成しました。同時に、Cosmos 2.5-2B(0.418)、Cosmos 2.5-14B(0.495)、アント Lingbot(0.466)に対してもそれぞれ 27%、7%、14% の向上を示し、これらを大きく上回りました。IF スコアは 0.609 であり、こちらも全ての競合製品を総合的に凌駕しています。Cosmos 2.5-2B、アリババ Wan 2.2-5B、Cosmos 2.5-14B、アント Lingbot と比較して、それぞれ 7%、12%、27%、7% の向上を記録し、その物理的因果一貫性という中核的優位性を直接実証しています。


*(上記の精度テストはオープンソースモデルの再現に基づいており、robotは対応するエンボディド的サブセットの結果を示しています。)
中国自らが钻研開発したネイティブなエンボディド的世界モデルとして、Kairos 3.0-4B は、業界が抱えるデータ、算力、物理推論、そして実装展開といった中核的なボトルネックに直撃します。本モデルは、高効率なデータシミュレーターとして機能し、低コストかつ規模拡大可能な形で学習データの量を増幅させ、実機インタラクションデータの希少性という業界の課題を効果的に解決します。さらに、純粋なシミュレーション応用の枠を超え、ロボット本体を直接駆動して多様な実体タスクを完了させることができ、仮想シミュレーションから物理実行までの全チェーンを真に繋ぎ、ロボットに賢い「頭脳」を提供します。これにより、エンボディド的AIの知的な飛躍を加快し、その規;丹欷繉g装に向けた中核的な技術基盤を提供するとともに、世界のエンボディド的AI業界の発展に対して、先進的な中国のソリューションを提供するものです。
当該技術成就はアップロード済みです。詳細は以下:
Code:
https://github.com/kairos-agi/kairos-sensenova
Hugging Face:
https://huggingface.co/kairos-agi/kairos-sensenova-common



リターンマッチ