Site icon 人形纪元网

使用层级记忆进行预训练分离长尾知识与常识

Image 0

近日,由Hadi Pouransari、David Grangier、C Thomas、Michael Kirchhof和Oncel Tuzel组成的研究团队提出了一种基于分层记忆的预训练方法,在语言模型领域实现了重要突破。这一创新通过引入记忆增强架构和新的预训练策略,大幅提升了小型模型的性能,并优化了其硬件适应性,从而为在资源受限的设备上使用大型语言模型(LLMs)提供了新的解决方案。

当前大型语言模型依赖于参数规模的扩展,以存储世界知识和提升推理能力。然而,将所有知识压缩到模型参数中既费能耗又不切实际,尤其是在推理能力和存储资源有限的边缘设备上,仅仅少量的知识会被实际使用。研究人员回应这一挑战,提出了一种基于分层记忆的模型架构:将长尾世界知识存储在专门的记忆板块中,而模型本体仅需处理常见知识和一般性推理任务。

这一方法的核心是构建一个由小型语言模型(160M参数)和大型分层记忆库(4.6B参数)共同协作的框架。具体来说,模型会根据上下文动态调用18M参数的记忆块,从而实现高效推理。据研究团队测试,加持了18M参数记忆模块的小型语言模型,其性能可媲美拥有两倍以上参数的传统模型。

在使用海量数据(达数万亿标记)进行测试后,研究显示,这种分层记忆架构在不同Transformer框架中表现稳定,无论是在预训练阶段还是通过后期插入记忆的方式,均展现了显著的性能提升。此外,实验还探索了不同类型和规模的记忆库对模型效率的影响,并成功将分层记忆方法扩展至超21B参数规模的模型,实现了进一步的性能突破。这表明,适应多种硬件的分层前馈记忆是实现高效语言模型的关键。

研究团队的成果展示了一条新的技术路线:通过将存储和推理功能分离,模型不仅能够承担更复杂的任务,还能够在资源紧张的移动设备或低功耗环境中崭露头角。


随着大语言模型在实际应用中对硬件资源需求的快速增长,微调技术面临着存储和内存受限的挑战。在这一背景下,研究团队提出了两种关键解决方案,致力于优化微调过程中的内存利用率:

1. **高效反向传播的记忆**

   微调大语言模型通常依赖反向传播技术,即使只调整少量参数(比如 LoRA 方法),其内存消耗仍然远高于推理阶段。这对移动设备是非常不利的。在这种情况下,研究人员尝试用零阶优化(ZO)代替传统方法,从而显著减少内存占用。然而,零阶优化的一个主要限制在于其收敛速度远慢于反向传播(需要多出 10~100 倍的训练步骤)。因此,还需要进一步的研究和实践来在效率和性能之间找到平衡。

  1. 记忆留存微调技术
    在NeurIPS 2024的现代机器学习微调原则与可扩展性研讨会(FITML)上,该团队展示了一种基于知识蒸馏的记忆留存微调方法。通过利用大规模预训练模型的世界知识,将其部分能力重新分配至小型模型,来持续优化后续应用(如数学推理、编程或用户定向任务)。

这些研究成果不仅为在有限资源环境下实现语言模型的高效部署奠定了理论基础,同时也提供了实际应用的工具包。


面对大语言模型快速发展的趋势,研究团队以分层记忆与优化微调技术为切入点,为解决高性能语言模型在硬件受限环境中的使用瓶颈打开了新的局面。这一开创性的研究成果无疑为推动人工智能普及化提供了可靠的技术支持,同时也为未来开发更加贴近实际需求的可持续模型架构设定了新标准。

随着这一研究思路的进一步发展,可以期待在不远的未来,无论是个人移动设备还是工业环境,对大规模语言模型的应用都将更加高效、普惠。


您的浏览器不支持视频标签。https://www.humanoidera.news/wp-content/uploads/2026/01/2287_300.mp4

[人形纪元网出品] [分层记忆语言模型] [小型语言模型性能优化] [大语言模型微调技术] [边缘设备高效AI解决方案] [刘智勇频道] [RoboPony(真机智能)] [真机算法] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


Exit mobile version