Site icon 人形纪元网

帮助AI代理优化搜索以提升大语言模型效果

Image 0

人工智能技术正迅速成为各行各业的关键助手,不论是科学家设想研究方案,还是企业 CEO 寻求在财务或人力资源领域实现自动化,AI 工具的应用正在深刻改变生产和工作方式。其中,半自主化软件系统——人工智能代理(AI agents)越来越受到专业人士的重视。这些代理通过调用大型语言模型(LLMs)来解决问题并完成任务,以其强大的适应性和效率尤为引人注目。然而,如何优化这些代理的工作流程?MIT 的计算机科学与人工智能实验室(CSAIL)以及 Asari AI 团队联合研发的“EnCompass”框架提供了答案。

目前,编程人工智能代理通常要求开发者编写代码来定义工作流程,并指定 AI 在各个环节的任务。如果 AI 代理使用 LLM 来执行任务,例如翻译冗长的代码库,其效率常常受到错误率的影响。为了处理可能出现的错误,开发者需要手动添加大量支持回溯逻辑的代码,以确保机器人能学习并纠正其错误。这种过程不仅耗时且冗杂,尤其是在需要处理复杂代码库时,新增代码行可能以千计。但通过新的 EnCompass 框架,这个问题迎刃而解。

EnCompass 能自动实现错误后回溯,确保 AI代理在问题路径上反复优化,同时还能集成程序运行时并行克隆,以提高找到最优解的效率。具体来说,EnCompass 会在程序运行时,基于 LLM 所有可能的输出,探索代理程序可能采取的所有路径,寻找其中最优路径。这种机制帮助AI系统找到最佳解决方案,并优化整体任务执行效率。

此外,该框架允许开发者为代理程序标注可能需要回溯或执行分支的关键点,并指定探索所有可能路径的策略。更重要的是,EnCompass 将搜索策略与 AI 代理的工作流程逻辑分离,使开发者能够快速尝试多种搜索方案,找到最佳策略。

通过应用分支点和搜索策略,EnCompass使得代码更加模块化和易读。例如,在翻译代码库任务中,程序员只需最少的改动——添加标注和记录步骤效果的注释——就能实现复杂的回溯能力。具体来说,对于将 Java 代码库翻译为 Python 的任务,EnCompass框架减少了约82%的代码行,从手动编写的427行减少至79行。当研究人员采用两级束搜索(beam search)策略时,翻译准确率在五个代码库中提升了15%至40%,显著优化了搜索效率。

“随着LLMs逐渐成为日常软件的重要部分,如何构建有效利用其优势的代码变得至关重要,”MIT电气工程与计算机科学教授兼CSAIL负责人Armando Solar-Lezama说道。“EnCompass为高效构建此类软件提供了重要的新方向。”

研究团队还指出,EnCompass主要适用于明确流程的AI代理。然而,对于完全由LLM控制的代理,该框架的具体应用尚需探索。因为在这些情况下,代理由LLM自由决定工作逻辑,而不是通过程式化步骤执行。即便如此,这类限制并不影响EnCompass未来的潜力。团队计划扩展至更通用的搜索框架,并评估其在更复杂任务中的表现,例如设计科学实验、处理海量代码库或开发硬件蓝图。

目前,EnCompass 已被证明是一个强大的工具,使研究人员能够更轻松地与 AI 代理协作,进一步提高其效率。“EnCompass 在 AI 驱动的软件工程领域变革的关键时刻中登场,” 卡内基梅隆大学教授 Yiming Yang 赞扬道,“它将代理逻辑与推理搜索策略明确分离,为代码生成、翻译和分析中的结构化搜索提供了科学化的探索途径。”

这项研究由MIT的Zhening Li (CSAIL研究员及Asari AI顾问)、Armando Solar-Lezama,以及加州理工学院教授Yisong Yue(Asari AI顾问)和Asari AI创始人兼CEO Stephan Zheng共同完成。成果已在神经信息处理系统会议(NeurIPS)上展示,并得到Asari AI的技术支持。

EnCompass为软件开发提供了一种从根本上优化人工智能代理的新方法,它不仅显著减少了编程复杂度,也为AI技术在大型任务中的应用打开了新的大门。随着技术的进一步完善,这一框架有望成为软件开发工作流中不可或缺的一部分,为构建更智能、更可靠的系统奠定基础。


您的浏览器不支持视频标签。https://www.humanoidera.news/wp-content/uploads/2026/02/3047_300.mp4

[人形纪元网出品] [人工智能代理优化] [代码生成与翻译技术] [LLM驱动软件开发] [EnCompass框架应用] [刘智勇频道] [真机智能(zhenrobot.com)] [真机算法] [真机资本(zhencap.com)] [真机宇宙(zhenmeta.com)] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [真机尽调(zhendue.com)] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


Exit mobile version