Meta发布V-JEPA2模型机器人训练迎来视频时代

8 months ago

首发平台：人形纪元网(www.humanoidera.news)

Meta推出突破性机器人世界模型V-JEPA 2，为AI自主导航开创新纪元

2025年6月11日，Meta正式发布了一款拥有12亿参数的世界模型——V-JEPA 2。该模型主要通过分析视频数据进行训练，旨在助力机器人及其他人工智能体在有限的领域特定训练情况下，完成对陌生环境的理解、预测及规划。这一创新依托联合嵌入预测架构（Joint Embedding Predictive Architecture），为机器人在复杂场景中的自主导航和任务执行提供了全新解决方案。

基于视频的两阶段训练：高效与精准并存
V-JEPA 2采用无监督学习模式，无需额外人工标注即可完成模型训练。整个训练分为两个阶段：

第一阶段，模型从超过100万小时的视频数据及100万张图像中自我学习，通过捕捉物理交互的模式建立初步认知；
第二阶段，加入动作条件学习，只需要少量机器人控制数据即可帮助模型在预测结果时考虑行动因素，从而在规划和闭环控制任务中表现出色。

Meta已经在其内部实验室对该模型进行了测试，结果表明V-JEPA 2能够完成诸如视觉感知驱动的任务规划与执行，并在机器人常见任务（如抓取和放置）中表现优越。对于简单任务，该系统能生成候选动作，并根据预测结果进行评估；而面对复杂任务（如抓取物品并精准放置到目标位置），V-JEPA 2通过视觉子目标序列引导行为，展现了高效的任务执行能力。

性能突破与挑战并存，成功率最高达80%
Meta 的内部测试表明，在未见过的环境中，V-JEPA 2 对于物体抓取与放置任务的成功率范围为 65% 到 80%，展现了强大的泛化能力。这意味着该模型能够适应全新的物品和场景，为未来机器人应用奠定了坚实的技术基础。

Meta的首席AI科学家Yann LeCun对此充满期待，称：“我们相信世界模型将开启机器人技术的新纪元，使得现实生活中的AI体无需海量机器人训练数据也能完成家庭事务和体力任务。”

然而，尽管V-JEPA 2在性能上超越了此前的模型，Meta AI团队也指出，它距离人类在相关任务中的表现还存在显著差距。团队认为，这是由于模型在多时间尺度和多模态信号（如音频信息和触觉数据）上的灵活性仍需进一步优化。

开放研究资源与三大基准测试推动行业发展
为了推动世界模型在机器人和实体人工智能领域的进一步探索，Meta还推出了以下三种基准测试，以评估视频数据中的物理理解能力：

IntPhys 2：衡量模型区分物理上可行与不可行场景的能力；
MVPBench：测试模型是否真正依赖理解而非数据集捷径进行视频问答；
CausalVQA：评估因果关系推理、预见和反事实场景分析能力。

此外，V-JEPA 2的代码和模型检查点现已开放，用于商业和研究目的，Meta希望通过开放资源激励更多科技企业和研究者加入世界模型的开发与创新。

行业竞争与未来展望
与此同时，其他科技领先企业和初创公司也在加速布局世界模型领域。其中包括正在开发3D环境模拟模型“Genie”的知名技术公司，以及由人工智能领域知名学者李飞飞创办的初创企业World Labs，该企业近期还获得了2.3亿美元的融资，用于构建大型世界模型。

Meta此次的突破不仅为机器人技术与实体AI发展带来了新的可能性，也为全球研究者和企业树立了技术发展方向。在未来，世界模型的深度开发或将进一步缩小人工智能与人类认知能力的差距，为现实世界的各类问题提供更具有前瞻性的解决方案。

您的浏览器不支持视频标签。https://www.humanoidera.news/wp-content/uploads/2025/06/601_100.mp4

[人形纪元网出品] [段落 1：] [人工智能认知发展] [世界模型技术突破] [机器人技术新方向] [AI现实问题解决方案] [段落 2：] [Meta机器人技术] [V-JEPA 2突破] [AI自主导航创新] [世界模型研究] [段落 3：] [开放研究资源] [人工智能基准测试] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [黄金广告位]

📚 【精品资源】添加关注『人形纪元网微信公众号』，即可免费获取完整版《刘智勇频道第五卷》