Saturday, February 7, 2026

MANZANO发布简单可扩展的统一多模态模型结合混合视觉分词器

Must Read

反情报行动

反间谍行动

Image 0

Image 100

近年来,统一的多模态大语言模型(LLMs)在理解和生成视觉内容方面展现了巨大的潜力。然而,现有的开源模型在视觉内容的“理解”与“生成”之间往往存在性能权衡问题,使得难以高效兼顾这两大任务。针对这一关键挑战,我们提出了一种全新的框架——MANZANO,这是一个简单且可扩展的统一架构,能够显著减少上述性能矛盾,为多模态研究带来突破。

Image 1

MANZANO将解决方案聚焦于一个高效的混合图像标记器和精心设计的训练策略,二者的结合推动了任务性能的全面提升。其核心设计包括:

  • 混合图像标记器:通过单一共享的视觉编码器生成两类嵌入,即用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。这些嵌入共同处于一个统一的语义空间中。
  • 轻量化任务适配器:两个轻量化适配器分别用于理解和生成任务,既保证了模型的专注度,又提升了任务执行效率。
  • 统一自回归语言模型:在统一的语义空间内,模型基于文本和图像标记预测高级语义,同时通过一个辅助扩散解码器将图像标记转化为像素表示。

这一架构的核心创新在于,通过统一的训练策略,在同时包含理解与生成的多模态数据上进行联合学习,有效提升了MANZANO在不同任务场景下的适配能力。

Image 2

得益于创新设计,MANZANO在统一模型中取得了业界领先的成果,其性能甚至可媲美某些专用模型,特别是在包含丰富文本信息的评估任务中表现尤为突出。实验研究显示,该框架通过任务尺寸的扩展呈现一致的性能提升,同时极少出现任务冲突现象,进一步验证了混合标记器设计的合理性。

本研究由以下作者共同完成:Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang†, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang†, Zhifeng Chen。

基于MANZANO,我们进一步推出了AToken——全球首个实现图像、高维视频和3D资源的统一视觉标记器。AToken突破了现有标记器的限制,解决了传统方法在单一模态重建或语义理解方面的局限性。创新点包括:

  • 4D潜变量空间:AToken 借助统一的 4D 潜变量空间,对各种视觉输入(如图像、视频和 3D 物体)进行编码,实现高保真重建与语义理解的兼容。
  • 多模态任务统一:该标记器不仅提升了现有任务的精度,还为未来多模态任务的进一步发展奠定了坚实基础。

Image 3

这一技术进步再次验证了统一视觉标记器在多任务、多模态协同领域的深远价值,并为行业研究者提供了全新的思路。

尽管预训练语言模型(PLMs)在适配多个下游任务方面表现卓越,以往研究尚未能充分探索其在自回归文本-图像生成任务中的潜力。在2023年NeurIPS大会“无法相信它不是更好模型!(ICBINB)”工作坊上,我们展示了一项最新研究,探讨了这一问题并揭示出:现有基于文本到图像生成的自回归方法虽已采用先进的图像标记技术(如VQ-VAE),但预训练语言模型对改进此类任务没有显著帮助。这一发现为进一步优化图像生成任务提供了新方向。

MANZANO及其相关研究成果表明,简单、统一且可扩展的架构设计是解决多模态性能矛盾的一种可行路径。同时,AToken在多模态统一任务中的卓越表现,进一步确立了“统一标记器”作为未来视觉任务方法论的核心地位。这些成果昭示了从理论到实践、多模态技术的不断进步,并为行业研究注入了新活力。

未来,我们将继续致力于多模态技术的探索与创新,为计算机视觉和自然语言处理领域带来更具突破性的解决方案。

Image 200

Image 300


[人形纪元网出品] [多模态统一视觉标记器] [文本到图像生成模型优化] [MANZANO架构创新设计] [AToken视觉内容重建模型] [刘智勇频道] [RoboPony(真机智能)] [真机算法] [PixStock.online(设计智能体图库)] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


- Advertisement -spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -spot_img
Latest News

IEEE拟定神经科技消费产品安全指南

“负责任的技术创新如同一座桥梁,它连接人类智慧与社会福祉,唯有平衡伦理与发展的脚步,方能跨越未知的深渊。” “负责任的技术创新如同一座桥梁,它连接人类智慧与社会福祉,唯有平衡伦理与发展的脚步,方能跨越未知的深渊。”
- Advertisement -spot_img

More Articles Like This

- Advertisement -spot_img