

新闻稿正文:
近年来,人工智能(AI)技术迅速融入日常生活,其在自动驾驶、智慧城市规划及智能助手等领域的应用尤为显著。然而,这些技术背后的核心系统——自主智能代理(autonomous agents),却面临在不可预测环境中平衡任务效率与安全合规的挑战。尤其是,当这些代理直接替代或深度协作于人类活动时,确保其行为符合社会、法律及伦理规范变得更加关键。这一需求促使研究人员在机器学习领域提出了多种创新解决方案。

在刚刚闭幕的国际人工智能联合会议(IJCAI 2025)上,维也纳工业大学(TU Wien)的Agata Ciabattoni教授和Emery Neufeld博士携手荣获“杰出论文奖”。他们的研究《结合多目标强化学习与限制盒子以学习规范性行为》(Combining MORL with Restraining Boxes to Learn Normative Behaviour),提出了一种前瞻性框架,为如何令自主代理遵守复杂社会规范提供了全新视角。
强化学习(Reinforcement Learning, RL)是一种通过奖励机制训练 AI 系统的机器学习方法,其在解决动态和复杂环境中的问题能力备受瞩目——从电子游戏策略优化到自动驾驶决策控制。然而,尽管 RL 系统在某些复杂任务中甚至超越了人类表现,却也可能因过度追求效率,冲击社会或伦理规范。例如,一辆完全遵守交通安全约束的无人驾驶车,可能因无视“让其他司机感到舒适”的社交礼仪而导致潜在危险。
规范问题的复杂性在于,它们不仅是关于“对错”的逻辑问题,还涉及义务、许可与禁止等“应然”概念。这些“规范”在许多情况下是多重条件和高度情境化的。例如,交通规则中最基本的“行人优先”原则,也会因环境变量而产生连锁交规(如确保安全距离)。传统RL方法通常难以处理这种规范动态及其潜在冲突。
为了解决上述问题,Ciabattoni教授和Neufeld博士等人提出了“订单化规范限制盒”(Ordered Normative Restraining Boxes, ONRB)的框架。相比传统RL设计,该框架创新性地将规范视为多目标强化学习(MORL)问题中的独立目标,使其能够灵活处理规范间的优先级、冲突及实时调整。主要优势包括:

-
规范优先级排序:通过引入一个规范排名系统,ONRB框架针对冲突情况提供了明确的解决逻辑。例如,当一辆无人驾驶车在面临“避开危险区域”和“按时抵达目的地”两项义务时,框架能够指导代理基于优先级最小化违反次数。
-
精确罚则模型:替代传统的奖励驱动方法,ONRB框架采用基于处罚的设计理念,确保违反重要义务时触发强制性惩罚,从而强制约束代理行为。
-
动态更新规范:得益于MORL的灵活性,框架允许对规范系统进行即时调整,无需重新训练代理。这使其在处理复杂法规变化或政策更新时表现出色。
在研究中,团队利用灵感源于战略游戏的网格世界实验环境,对ONRB框架进行了严格测试。实验结果表明,该方法不仅有效解决了规范冲突,较传统方法也更具效率和可靠性。例如,当代理必须在保证安全与分配任务之间平衡时,ONRB大幅降低了因规范矛盾引发的决策错误率。

AI代理的行为规范不仅决定了技术功能,也影响着公众对AI技术的信任。此次获奖研究通过将逻辑学的精确性与机器学习的适应性相结合,为推动合规、可靠且具有伦理考量的智能系统研发奠定了重要基础。
Ciabattoni教授表示:“我们的研究展现了将AI纳入社会规范系统中的可能性。通过这种方法,我们不只是让AI‘工作’,而是让AI‘正确地工作’。”团队成员也对未来发展表示期待,并计划进一步优化框架,以支持更广泛的实际应用场景。
这一研究由维也纳科技与创新基金(ICT22-023项目)以及奥地利科学基金提供资金支持,标志着欧洲在高效、安全且合规的AI技术研究领域走在前沿。更多信息详见论文全文《结合MORL与限制盒子以学习规范行为》。


[人形纪元网出品] [人工智能伦理] [多目标强化学习] [规范性行为框架] [自主智能代理] [刘智勇频道] [RoboPony(真机智能)] [DualMe.net AI分身网络] [PixStock.online 设计智能体图库] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [鲸算GEO] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》



轻松幽默强化学习的终局应用?会不会有一天我们可以训练AI学会怎么不抢我的零食?
理性分析维也纳科技团队的努力,让AI的规范约束从理念到实践走得更稳,科学精神真是推动世界前进的发动机!
积极思考动态更新规范说明了一个真理拥抱变化是进步的必要条件,时代在变,连AI都这么努力,我们还有什么理由停滞不前?
深刻反思复杂的规范问题揭示了规则的多维度,我们人类制定的每个规则,其实都折射出社会的价值观。