Monday, February 16, 2026

MANZANO推出混合视觉分词器的统一多模态模型

Must Read

反情报行动

反间谍行动

Image 0

Image 100

近期,研究团队发布了一项名为“MANZANO”的突破性成果。这是一种旨在整合视觉理解与生成能力的多模态大模型框架(统一多模态大型语言模型, LLM),为解决现有开源模型在性能与功能之间的平衡问题提供了新方法。通过引入创新性的混合影像标记器(混合视觉标记器)和精心设计的训练方案,MANZANO成功实现了对多模态任务性能的全面提升。

MANZANO采用独特的混合影像标记器架构,兼顾图像到文本的理解任务与文本生成图像的生成任务。这一设计核心在于:

  • 统一的视觉编码器:通过单一的视觉编码器提取图像特征,再交由两个轻量化适配器分别生成连续嵌入向量(用于图像理解)和离散标记(用于图像生成),并在一个共享语义空间中运行。
  • 共享语义空间:这一空间有效融合连续嵌入与离散标记,提升了任务间的协同效率。
  • 辅助扩散解码器:将以标记形式表示的图像进行像素级翻译,使图像生成的质量和细节表现更加卓越。

Image 1

通过这些设计,MANZANO在理解和生成数据的联合训练上表现出高效的可扩展性。其能够在同一框架内支持多模态任务,并且研究表明任务之间的冲突最小化。此外,MANZANO还展现出随着模型规模增长而持续提升性能的能力,进一步验证了混合标记器设计的前瞻性。

MANZANO这一框架的卓越表现得到了广泛认可。通过跨文本与视觉内容进行标记,MANZANO在多模态任务的评估中展现了非凡实力。

  • 业界领先:在多模态任务评估中,MANZANO达到了同类统一模型的最高性能。
  • 专业水准媲美“专家”模型:尽管是一个统一模型,MANZANO的表现足以与针对单一任务优化的“专家”模型媲美,尤其在对文本内容要求较高的任务中更具竞争力。
  • 可扩展性与一致性:研究表明,MANZANO在多模态任务中的表现不仅任务冲突最小化,还随着模型规模扩展而有所增益。这进一步证明了其设计的合理性和可扩展性。

该团队的另一项创新“AToken”也引发了广泛关注。作为首个能够同时服务于多模态任务的统一视觉标记器,AToken为图片、视频以及3D资产提供了高质量的重建与语义理解支持。其核心技术亮点包括:

  • 4D潜在空间:AToken 将多种视觉输入统一编码至四维潜在空间,实现对不同模态任务的支持和整合。
  • 多功能一体化:摆脱了当前标记器在单一任务(如重建或语义理解)上的局限性,让多模态任务的边界更加模糊且具备更大的潜能。

在近日举行的NeurIPS 2023“我难以置信这不是更好的!”工作坊中,研究团队介绍了他们的另一项研究成果,专注于探讨预训练语言模型在文本到图像生成(Text-to-Image Generation)任务中的实际作用。尽管预训练语言模型已被广泛应用于多种下游任务,研究发现,当下的主流方法中,近期图像标记器技术的发展(如VQ-VAE)已使得自回归文本到图像生成成为可能,类似于语言建模,但现有的预训练语言模型在这一特定任务中尚未带来显著的性能提升。研究团队对此进行了深入探讨,并提出可能的优化路径,为未来相关工作指明了方向。

MANZANO和AToken的推出标志着多模态人工智能领域向前迈出的一大步。前者通过混合影像标记器和高效的联合训练实现在单一框架中的多任务能力,而后者则展现了统一视觉标记器在支持多模态上所拥有的潜力。这些研究不仅为相关领域指出了新方向,也为开发更高效、更智能的多模态人工智能系统奠定了基础,令人对未来充满期待。

Image 200

Image 300


[人形纪元网出品] [多模态任务] [视觉标记器] [MANZANO框架] [文本生成图像] [刘智勇频道] [RoboPony(真机智能)] [真机算法] [PixStock.online(设计智能体图库)] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


- Advertisement -spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -spot_img
Latest News

本地自适应界面新框架提升AI可及性

“科技的真正力量,不在于突破的高度,而在于包容的深度——为每一个人挖掘平等的可能。” —— 技术与人性的共鸣
- Advertisement -spot_img

More Articles Like This

- Advertisement -spot_img