Wednesday, February 11, 2026

使用层级记忆预训练分离长尾知识与常识

Must Read

反情报行动

反间谍行动

Image 0

Image 100

现代大规模语言模型(LLMs)的卓越表现,越来越依赖于模型参数的扩展。更大的参数量不仅可以存储更多的世界知识,还能够推动更强的推理能力。然而,将全部世界知识压缩到模型参数中并非最优选择,这种方式不仅低效,还会对资源受限的设备(如边缘设备)在推理时的内存和算力提出过高要求。

Image 1

为了应对这一困境,研究人员尝试通过引入内存增强型架构以及配套的预训练策略,将复杂的知识组织方式与现有硬件基础设施相结合,取得了重大突破。

研究团队提出了一种全新的语言模型架构,通过小型模型与大规模分层内存模块的结合,大幅提升了模型性能。该方法的核心是:
– 通过小型语言模型(仅160M参数)作为核心模块,捕捉常见知识和通用推理能力。
– 引入分层结构的巨大参数化内存(比如4.6B参数的大型内存库),进行世界知识的外部存储与组织。
– 在预训练和推理时,从大规模内存中动态提取面向当前上下文的小型内存块(18M参数),并将其与核心模块共同用于推理。

这种架构在实践中表现出了显著的资源优势。例如,通过处理万亿级别 token 的实验发现,一款仅有 160M 基础参数的模型,通过从 4.6B 规模的内存库中动态提取 18M 参数的内存块,能够达到与参数规模超过两倍的传统模型相当的性能。

在模型训练阶段,新架构通过分层存储方式,将长尾知识分配至大型外部内存,而小型核心模型则专注于捕捉常见知识与通用的推理能力。这一设计不仅优化了模型在不同情境下的知识调用效率,还确保了其适配边缘设备等硬件资源受限的平台需求。

Image 2

此外,通过对训练的算法与内存的类型、规模进行大规模实验,研究表明,层级化的前馈式内存在主流Transformer架构下表现稳定,不论是在预训练期间添加内存模块,还是在后续应用阶段动态调用,均能够取得理想的效果。

另一方面,研究团队也提出了在资源受限环境中实现高效微调的解决方案。例如,在传统的微调方法中,即使仅优化LoRA等部分参数,反向传播所需的内存占用依然会超过模型推理的需求。这常常使得某些大型模型的微调在移动设备或嵌入式硬件上显得不可行。

为此,该团队开发了适用于内存约束设备的优化机制,通过诸如零阶优化(ZO)等方法显著降低微调的内存开销。然而,尽管此类方法减少了硬件负担,但模型收敛速度却不可避免地降低(需要更高数量级的训练步长)。为此,团队通过创新性的记忆保持蒸馏(Memory-Retaining Finetuning via Distillation)策略,提出一个兼顾资源利用与收敛性能的新路径。这一研究成果已获NeurIPS 2024年“现代机器学习微调:原则与可扩展性(FITML)”专题研讨会接纳,显示了其学术价值与潜在的产业应用前景。

Image 3

无论是通过引入高效的内存增强架构,还是面向移动设备的微调优化,本次研究都为大规模语言模型如何更好地平衡性能与硬件资源开销提供了令人振奋的新思路。在处理超大规模数据集(万亿级token)以及多样硬件平台的实验验证中,该技术已经展现出其稳定性与广泛适用性。

随着语言模型的进一步迭代,这种分层化、模块化的构建理念可能成为未来行业标准,推动大语言模型在高性能计算和资源约束环境中的应用拓展。

Image 200

Image 300


[人形纪元网出品] [大规模语言模型优化] [内存增强型架构] [模型微调技术创新] [边缘设备性能提升] [刘智勇频道] [RoboPony(真机智能)] [真机算法] [PixStock.online(设计智能体图库)] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


- Advertisement -spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -spot_img
Latest News

本地自适应界面新框架提升AI可及性

“科技的真正力量,不在于突破的高度,而在于包容的深度——为每一个人挖掘平等的可能。” —— 技术与人性的共鸣
- Advertisement -spot_img

More Articles Like This

- Advertisement -spot_img