- 新闻中心
NEO-unify:原生架构打造端到端多模态理解与天生统一模型
当前多模态智能架构困境
持久以来,多模态钻研已形成一种默认范式:视觉编码器(Vision Encoder, VE) 掌管感知与理解,而变分自编码器(Variational Autoencoder, VAE) 则用于内容天生。近期的一些工作尝试构建共享编码器,但这种折衷往往引入新的结构性设计衡量。
由此回到第一性道理:构建一体化模型直接处置原生输入,即像素自身与文字自身。东升国际官网科技结合南洋理工大学,提出一种全新的架构范式:NEO-unify(preview),一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论,也脱节了预训练先验和规模定律瓶颈的限度。最关键的是:不必要 VE,也不必要 VAE。
我们正扩大规模、持续迭代。更多模型与开源成就,将很快与各人碰头。
NEO-unify原生一体化架构新范式
NEO-unify 第一次迈向真正的端到端统一框架,可能直接从近乎无损的信息输入中进建,并由模型自身塑造内部表征空间。首先,引入近似无损的视觉接口,用于统一图像的输入与输出暗示;其次,选取原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与天生可能在统一系统中协同进行;最终,通过统一进建框架实现跨模态训练:文本选取自回归交叉熵指标,视觉通过像素流匹配进行优化。
模型成效
1、定量了局分析


2、生图成效展示


技术发现
1、无编码器设计可能同时保留抽象语义与细粒度表征
[图像沉建工作]
我们先前的工作 NEO(Diao et al., ICLR 2026)批注,原生端到端模型同样可能进建到丰硕的语义表征。在此基础上,我们进一步观察到一个有趣的景象:即便在冻结理解分支的情况下,独立的天生分支依然可能从暗示中抽取并复原细粒度的视觉细节。
基于这一发现,我们训练了 NEO-unify(2B)。在初步 9 万步预训练后,模型在 MS COCO 2017 上获得 31.56 PSNR 和 0.85 SSIM,而 Flux VAE 的对应指标为 32.65 和 0.91。这一了局批注,即便不依赖预训练 VE 或 VAE,近似无损的原生输入仍可能同时支持高质量的语义理解与像素级细节保真。
域表图像沉建(2B NEO-unify,理解分支冻结)

[图像编纂工作]
据此,我们进一步发展索求:NEO-unify 将所有全模态前提信息统一输入到理解分支,而天生分支仅掌管天生新的图像。
即便在冻结理解分支的情况下,NEO-unify(2B) 仍展示出壮大的图像编纂能力,同时显著削减了输入图像令牌的数量。在使用开源天生与图像编纂数据集并进行初步 6 万步混合训练后,模型在 ImgEdit 基准上获得 3.32 的成就,且理解分支在整个训练过程中维持冻结。
幼规模数据验证(2B NEO-unify,理解分支冻结)

ImgEdit提醒词编纂(2B NEO-unify,理解分支冻结)

2、无编码器架构与 MoT 主干高度协同大幅降低内涵矛盾
借助预训练的理解分支与天生分支,NEO-unify 使用一样的中期训练(MT)与 监督微调(SFT) 数据进行结合训练。即便在较低的数据比例和损失权沉下,理解能力依然维持不变,而天生能力则收敛很快。二者在 MoT 主干中协同提升,整体矛盾极幼。

3、无编码器架构,展示更高数据训练效能
此表,我们首先进行 web-scale 预训练,随后在多样且高质量的数据语料上顺次进行中期训练(MT) 和 监督微调(SFT)。与 Bagel 模型相比,NEO-unify 展示出更高的数据训练效能,在使用更少训练 token 的情况下获得了更优的机能。

将来瞻望
这不仅仅是一种模型架构索求,更是迈向下一代智能状态的一步:
? 感知与天生交错的关环
? 全模态推理
? 视觉推理
? 空间智能
? 世界模型
? …
一条新的路线图在发展:模型不再在模态之间进行转换,而是可能原生地跨模态思虑。多模态 AI 不再只是衔接分歧系统,而是构建一个从未割裂的统一智能体,并让所需能力从其内部天然涌现。





返回