东升国际官网

お問い合わせ
  • hd-share-img01
ニュース

総合評価で8大ランキングの首位を獲得!センスタイムがオープンソース公開した SenseNova-SI-1.3、空間知能のスケール効果に突破

2026-02-06

センスタイムは、空間知能モデル「日日新 SenseNova-SI-1.3」を正式にオープンソースとして公開しました ?臻g測定、視点変換、総合推論などのコアタスクにおいて顕著な向上を示しており、さらに従来バージョンと比べて簡答式問題への回覆能力も強化されています 。

複数の権威ある空間知能ランキングを統合した総合評価プラットフォームEASIにおいて、SenseNova-SI-1.3の総合机能はGemini-3-Proを上回り、均匀スコアでEASI-8(8つの権威ある空間知能ランキングを統合した評価)の第1位を獲得しました 。また、複数の高難度空間タスク(特に視点変換)において優れた机能を示しています 。

si1.png

難問による検証:SenseNova-SI-1.3 が空間知能の主题的難点を正確に突破

EASI-8 には、空間理解能力を検証するための一連の高難度テスト問題が含まれており、Gemini-3-Pro などのモデルも頻繁に誤答しています 。では、SenseNova-SI-1.3 はどのような結果を示したのでしょうか 。(以下の問題はテスト時の原文が英語であり、読者の理解のため中国語に翻訳されたものをさらに日本語に訳したものです 。)

si2.png

問題では、2枚の写真に写る建築模型の総数を数えることが求められています 。主题的な難点は、2枚の画像の対応関係を理解し、それによって遮蔽による数え漏れや沉複カウントを避けることです 。図2の視点では、図1で隠れていた濃い灰色の建物が現れており、また一部の模型は両方の画像に沉複して写っています 。Gemini-3-Pro は齐全に沉複を除去できず、6個と誤って数えました 。一方、SenseNova-SI-1.3 は「4個」という正確な答えを示しました 。

si3.png

別の問題では、書斎の一部を撮影した2枚の写真が与えられ、iMac が部屋の北側にあることが分かっています 。学生が宿題をするエリアの方位を尋ねる問題です 。まず2枚の画像が统一空間に属していることを理解し、その後視覚的な手がかりによってシーンを結合する必要があります 。Gemini-3-Proは学習エリアが西側にあると誤判断しました 。SenseNova-SI-1.3 は「北西の角」と正確に定位し、空間的な論理に齐全に一致しました 。

si4.png

別の問題では、「眼鏡をかけていない男性の自身の視点」から、隣にいる眼鏡をかけた男性の方位を判断することが求められています 。これは「参照座標系の変換」能力を試す問題であり、モデルは容易に「観察者視点」で方向を判断してしまいがちです 。Gemini-3-Pro は「右側」と誤答しました 。SenseNova-SI-1.3 は正しく「左側」と答えました 。

si5.png

さらに、ピンク色のボトルの前?後?左?右の4枚の写真が与えられ、図4の視点においてボトルの左側にある物体を尋ねる問題もあります 。この問題では、複数の視点から得られる手がかりを統合して部屋整个のレイアウトを再構築し、その後目標の視点に切り替えて方位を判断する必要があります 。第4枚の写真ではボトルの左側が齐全に視覚の死角となっており、前の3枚の写真に写る窓、ベッド、クローゼットなどの手がかりを通じて空間関係を復元する必要がありますGemini-3-Proは「窓と青いカーテン」を誤って選択しました 。SenseNova-SI-1.3は正確に正解である「クローゼットとドア」を特定しました 。

si6.png

二階建てバスとバス停の場面を題材にした問題では、「イギリスでは左側通畅であるため、停車するのは左側である」という常識的な思い込みの罠を避け、実際の視覚情報に基づいて方位を判断する必要があります 。Gemini-3-Proは「左側」と誤判断しました 。SenseNova-SI-1.3は正確に「右側」と理解しました 。

空間知能は極めて怪异なマルチモーダル能力

si7.png

2025年の論文 「Core Knowledge Deficits in Multi-Modal Language Models」 では、視点変換タスクと他のマルチモーダルタスクとの相関(赤枠内)が青色で示されており、これは相関が低いことを意味しています 。

2025年に機械学習分野のトップカンファレンス ICMLで発表された論文「Core Knowledge Deficits in Multi-Modal Language Models」は、興味深い発見を示しました 。それによると、視点変換(Perspective)と従来のマルチモーダルモデルの各種能力との相関は例表的に低いことが分かりました 。これは、現在主流となっているアルゴリズムの発展経路が、空間知能の形成にとって有効なアプローチではない可能性を示唆しています 。また、このことは、最先端のマルチモーダル大規模モデルが空間知能に関連するタスクで极度な机能を発揮できていない理由の一つを説明するものでもあります 。

si8.png

2025年の論文 「Core Knowledge Deficits in Multi-Modal Language Models」 では、モデルサイズを拡大しても視点変換タスクの机能向上にはあまり効果がないことが责备されています 。

この論文ではさらに、空間知能にはいわゆる「反スケーリング効果」のような現象が存在する可能性が示唆されています 。つまり、モデルが大きくなっても空間知能タスクをより良く解決できるとは限らないということです 。また、EASI の公式レポートでも同様の责备が見られ、視点変換タスク(Perspective-taking)は依然として最も困難な基礎能力の一つであるとされています 。空間知能には、新しい学習パラダイムが必要です 。


3D世界データの不及から空間知能のスケール効果へ

si9.png

空間知能の主题である視点変換タスクは、次の3つの沉要なステップに分化されています 。「視点間の関連付けの構築、視点移動の理解、視点変換の想像」これら3つの基礎能力を中心に、大量の訓練データが構築されました 。

学術界の既存データセットは主に物体認識やシーン理解に焦点を当てており、モデルは画像パターンマッチングの段階にとどまりやすく、安谧した空間理解能力を形成することが難しいとされています 。この洞察に基づくと、空間知能、特に視点変換のタスクを解決するには、関連データの規模を単純に拡大するだけでは不极度です 。

この底子的な問題を解決するために、私たちは視点の変換を2次元の視覚情報から3次元の空間関係の理解に向かう沉要な橋渡しと見なし、それを段階的な能力として分化し、易しいものから難しいものへと難易度を増す3つのタスクレベル(視点間の関連を確立する、視点の移動を理解する、視点の変換を想像する)に分け、大量かつ階層的に明確なトレーニングデータを構築し、モデルが齐全な空間理解能力を確立できるようにしました 。

同時にデータ規模を拡大する過程で、多視点の学術データ資源を再発掘?再構成しました 。過去に极度に活用されなかった多くの注釈を視点変換の訓練データに変換する 。例えび注多くの関連データセットである MessyTable は、高い物体複雑度のシーンを提供しており、視点をまたいだ物体の一貫脾气報と正確なカメラ姿勢のアノテーションがあり、物体対応やカメラ動作推論能力の訓練に利用できます 。一方、CA-1M などの一部室内シーンのスキャンデータには、物体自身の向きのアノテーションが付いたサンプルが含まれており、モデルが視点変換や想像に必要な希少データを補完するために使用されています 。このような異なるデータソースの再編成と再利用によって、系统的で豊富な空間理解データの蓄積が可能になりました 。

si10.png

空間知能のスケール効果:大規模で高品質な空間知能データによって、SenseNova-SI チームは空間知能のスケール効果を検証しました 。

大規模で高品質な空間インテリジェンスデータは、SenseNova-SIチームの手によって最終的に空間インテリジェンスのスケール効果を検証しました:SenseNova-SIの8Bパラメータ基礎モデルは、最終的にGPT-5のような強力なクローズドソースモデルを超え、一方、2Bパラメータの幼規模モデルも優れた机能を示し、同じデータ規模では、ニューヨーク大学のCambrian-SやバイトのVSTという2つの7Bパラメータモデルさえも上回りました 。

 

si11.png

Ego-Exo4Dで第一人称/第三人称視点マッチングのモデルだけを訓練することで、MMSIの2D迷途ナビゲーション課題における机能を大幅に向上させることができます(90.4%) 。

さらに興味深いことに、チームは钻研でいくつかの知能の出現の兆候を発見したようです 。一見無関係に見えるが、よく考えると基礎能力に関連しているかもしれないタスクが協調して発展することができます 。また、チームは視点変換タスクで訓練されたモデルは、心的再構成(Mental Reconstruction)や総合的空間推論(Comprehensive Reasoning)などの能力も強化できることを発見しました 。

センスタイムが空間知能の遍及エコシステムを推進

SenseNova-SI-1.3 のアップグレード公開の布景には、最先端の空間知能技術をより多くの開発者と企業に提供するというセンスタイムの取り組みがあります 。

钻研者にとって、SenseNova-SI-1.3 は空間知能のスケール効果を検証する強力な事前学習モデルおよびベースラインであり、既存の基盤モデルとも齐全に互換性を持っています 。(SenseNova-SI はすでにVSI-Bench、MMSI-Benchなどの権威あるランキングに公式収録されています 。)

企業にとっては、SenseNova-SI-1.3 を基盤としてアプリケーションを迅速に実装でき、開発周期を短縮し、技術導入のハードルを下げることができます 。

通常ユーザーにとっては、今後より多くの製品が高度な空間知能を搭載するようになるでしょう 。
スマート家電、自動運転、産業ロボット、教育機器などが、より「空間ロジック」を理解し、実際のニーズに適応したものになっていきます 。

si12.png

SenseNova-SIはエンボディドAIタスクにおける空間知能の沉要性を根究した

オープンソースリンク

SenseNova-SI モデルファミリー
https://huggingface.co/collections/sensenova/sensenova-si

SenseNova-SI オープンソースコード
https://github.com/OpenSenseNova/SenseNova-SI

Discord コミュニティ招待リンク
https://discord.gg/WBzH62bk

お問い合わせ
ビジネス提携
【网站地图】