
在多模态大语言模型(MLLMs)在视觉语言推理领域取得显著进展的背景下,其对视频中随时间展开的叙事能力却仍未得到充分探索。真正的叙事理解需要掌握“谁在做什么、何时何地”的核心信息,并在动态视觉和时间上下文中保持对实体的连贯表征。为解决这一领域的空白,研究团队引入了NarrativeTrack——全球首个通过精细的实体中心推理,评估MLLM叙事理解能力的基准评测框架。
与现有基准仅局限于短视频片段或场景级语义推理相比,NarrativeTrack通过细粒度实体分析解决这一局限。框架独辟蹊径地将视频分解为组成实体,并以组合推理进程(Compositional Reasoning Progression, CRP)为核心进行评估,确保评测从基础到复杂逐步升级。CRP基于三大维度提升叙事复杂度:实体存在性、实体变化性与实体模糊性,挑战模型:
1. 从时间持久性推理组织相关信息;
2. 到语境演化中的实体关联;
3. 再到细粒度感知推理中的一致性表达。
这种层层递进的方法,力图推动模型在理解动态视觉过渡和时间动态中,对叙事内容形成更强大的捕捉和整合能力。
NarrativeTrack依托于一套全自动化的实体中心化管道,能够大规模地提取基于时间轴的实体表征,为CRP的评估提供了坚实的技术支撑。借助此管道,该框架不仅实现了对视频多模态大语言模型的性能诊断,还为真正的叙事理解设立了衡量基准。
对多种最先进的MLLMs进行评估后,研究团队发现当前模型在叙事理解上存在显著局限性:
– 实体追踪在视觉转换和时间动态之间表现不稳定:许多模型在上下文变化中容易生成错误的实体身份推测(“幻觉”问题)。
– 通用语言模型与视频特定模型的表现差异显著:开源的通用MLLMs在感知基础能力方面表现突出,但时间推理能力薄弱;而偏向视频的MLLMs虽然更擅长捕获时间上下文,但经常错误生成实体上下文。
这些发现揭示了一个关键矛盾:感知能力与时间推理之间存在本质性权衡,真正的叙事理解只有在这两种能力成功整合的情况下才会涌现。
NarrativeTrack的推出,不仅为学术界首次提供了一个系统性框架来诊断与推进MLLM在时间叙事理解上的表现,更为未来多模态人工智能的发展指明了方向。通过解决感知与时间推理的根本性矛盾,研究团队确信这项工作将促进AI叙事理解迈向新高度。
该研究已被顶级AI会议NeurIPS 2025的“评估不断发展的LLM生命周期研讨会”接收,代表了多模态AI领域的前沿发展。
NarrativeTrack 的发布标志着一个新的突破,更清晰、更复杂的叙事理解挑战正等着 AI 研究者们去攻克。这不仅是在技术上的探索,也是对未来智能系统在视频叙事方向实际落地的积累。
[人形纪元网出品] [多模态大语言模型叙事理解] [AI叙事推理基准框架] [视频动态视觉与实体追踪] [时间上下文与复杂叙事分析] [刘智勇频道] [RoboPony(真机智能)] [真机算法] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化] [真机内参] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

