Wednesday, February 11, 2026

MANZANO推出混合视觉分词器的多模态统一模型

Must Read

反情报行动

反间谍行动

Image 0

Image 100

随着人工智能领域的发展,具备理解和生成视觉内容能力的多模态大语言模型(Unified Multimodal Large Language Models, LLMs)展现出了巨大的潜力。然而,现有开源模型在这种双重能力之间往往存在性能权衡问题。为了解决这一难题,研究者提出了一种简单且可扩展的统一框架 Manzano,通过混合式视觉分词器和精心设计的训练方案,大幅减少了这种性能张力。

Manzano 的核心创新在于采用了混合视觉分词器,该分词器将单一视觉编码器与两个轻量级适配器结合,分别生成:
1. 表征图像到文本理解的连续嵌入;
2. 表征文本到图像生成的离散标记。

Image 1

这种设计思想通过将文本和图像嵌入到共享的语义空间,统一了多模态任务的语义表示。Manzano 的模型架构以一个自回归(autoregressive)大模型为核心,不仅能够预测文本和图像标记的高阶语义,还能辅助图像标记通过扩散解码器翻译为像素图像。

Manzano 的统一训练策略结合了理解任务数据与生成任务数据的联合学习,成功实现了两种能力的可扩展深度融合。在性能表现上,Manzano 在统一模型中取得了当前最顶尖的成果,同时在包含丰富文本信息的评估任务中也展现出了与专用模型媲美的实力。研究表明,Manzano 的混合式分词器设计能够有效避免任务冲突,并通过扩大模型规模带来一致性提升。

另一个重要进展是 AToken,这是首个能够同时实现高还原度重构与语义理解的统一视觉分词器。AToken 的创新在于将多种视觉输入(包括图片、视频和3D资产)编码到共享的 4D 潜空间中,使其不仅在单一模态下表现优越,还能在多个模态和任务间实现统一表示。这种设计突破了现有模型在特定单一任务上的限制,真正实现了“跨任务、跨模态”的统一学习。

研究者还发现,尽管预训练语言模型(预训练语言模型,PLM)在广泛的下游任务中具有高度适应性,但目前的自回归式文本到图像生成技术尚未能充分利用这些模型。相关研究在 NeurIPS 2023 的 I Can’t Believe It’s Not Better!(ICBINB)工作坊中发表,讨论了这一技术空白及其改进方向。

Manzano 和 AToken 的推出标志着多模态技术在统一性与扩展性上的新突破。这些研究不仅展现了高效整合视觉与语言模型的潜力,也为 AI 在图像生成、内容理解等领域开辟了更广阔的应用前景。未来,多模态大语言模型或将在跨模态数据处理中发挥更重要的作用,为人工智能技术的可用性和普适性奠定基础。

本研究的完整作者名单包括:Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang†, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang†, Zhifeng Chen

Image 200

Image 300


[人形纪元网出品] [多模态技术创新] [视觉分词器架构] [文本到图像生成] [人工智能统一模型] [刘智勇频道] [RoboPony(真机智能)] [真机算法] [PixStock.online(设计智能体图库)] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


- Advertisement -spot_img
  1. 科学家们真是走在未来的前沿,用知识触碰未知的边界,我们普通人只能抱紧希望,享受科技进步的红利!

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -spot_img
Latest News

本地自适应界面新框架提升AI可及性

“科技的真正力量,不在于突破的高度,而在于包容的深度——为每一个人挖掘平等的可能。” —— 技术与人性的共鸣
- Advertisement -spot_img

More Articles Like This

- Advertisement -spot_img