
统一多模态大语言模型(LLMs)能够理解和生成视觉内容,在多模态智能中展现出巨大的潜力。然而,目前许多开源模型在视觉理解与生成能力之间存在性能取舍的问题。研究团队提出了名为 Manzano 的新框架,这是一种简单而可扩展的统一多模态解决方案,通过结合混合图像标记器和精心设计的训练策略,显著降低了多模态任务中的性能矛盾。
Manzano 的核心在于其创新的混合图像标记器(hybrid image tokenizer)设计。它通过一个共享的视觉编码器为两种轻量化适配器提供支持,分别用于生成连续嵌入(image-to-text tasks)以及离散标记(text-to-image tasks)。该方法将文本生成与图像生成统一到一个通用的语义空间中,实现了高效的跨模态学习。
在具体设计上,Manzano引入了单一的自回归式大语言模型(autoregressive LLM),预测基于文本和图像标记的高级语义。随后,辅助扩散解码器(auxiliary diffusion decoder)将图像标记解析成像素,从而完成图像生成任务。这种架构配合统一的训练策略,使得模型能够在视觉理解和生成数据上实现协同学习。
实验结果表明,Manzano无论是在联合模型中,还是在专业模型中(特别是文本丰富的评测场景下)都展现了最前沿的性能。通过模型尺寸的扩展,研究团队进一步验证了设计中混合标记器和架构的合理性,即任务冲突几乎可以忽略,并能持续获得规模化的收益。
为了进一步推动视觉处理的技术发展,研究团队还推出了 AToken,首款能够同时兼顾高保真重构(high-fidelity reconstruction)与语义理解(semantic understanding)的统一视觉标记器。AToken突破了现有技术的局限,通过将不同视觉输入(包括图像、视频和3D资产)编码到一个共享的四维隐空间(4D latent space),实现了跨任务、跨模态的整合。
传统视觉标记器往往仅专注于单一领域——要么擅长重构,要么专注于理解单一模态内容。然而,AToken在这些方面取得了里程碑式的突破,使其在多模态人工智能领域具有广阔的应用前景。
尽管近年的研究证明了类似语言建模的自回归方法在图像生成中的可行性,但预训练语言模型的潜力尚未被充分挖掘。相关研究《预训练语言模型并不能帮助自回归文本到图像生成》(Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation),被2023年NeurIPS大会的“I Can’t Believe It’s Not Better!”(ICBINB)研讨会接受,研究领域涵盖了计算机视觉和语音与自然语言处理。
研究指出,现有的图像标记技术(如VQ-VAE)使得以自回归方式生成图像成为可能,这类似于语言建模。然而,这些方法尚未充分利用预训练语言模型在适应多样化下游任务方面的能力。这一发现为未来在多模态研究方向上的技术发展提供了重要的参考。
无论是Manzano还是AToken,研究团队的最新成果都在为多模态任务的未来勾画出更清晰的蓝图。这些突破性进展不仅改善了大语言模型在多模态任务上的表现,还展现出机器学习领域持续创新的潜力。通过深入挖掘标记器与多模态架构的结合点,这些研究将为多领域人工智能应用带来更广泛的机会和可能性。
[人形纪元网出品] [多模态人工智能] [自回归语言模型] [图像生成与标记器] [视觉与语义理解] [刘智勇频道] [RoboPony(真机智能)] [真机算法] [PixStock.online(设计智能体图库)] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

