LeCun发布最新世界模型：具身智能掌握第一视角
量子位｜ 2025-06-30

声明： 本消息或因风格和篇幅原因进行过编辑，但未经核实，也不代表我们的立场、观点或建议。如有侵权，联系秒删。[ 使用条款 ]

赞助信息

LeCun在干嘛呢？

就在扎克伯克亲自带队Meta的AI项目，千亿薪酬挖得硅谷人心浮动之际。Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一的Yann LeCun，却几乎声量全无，他没有参与LLM基础模型的研发，也开始在社交网络上消停了。

LeCun是要离开Meta了吗？

不不不。他可能只是在憋自己想追逐的大招，比如——世界模型。而且就在最近，LeCun团队的世界模型新进展来了。

名叫PEVA模型，新突破是让具身智能体学会这人类一样的“预判能力”，首次实现16秒连贯场景预测。怎么说呢？就像人类伸手时会预判手臂进入视野的角度、走路时会提前观察脚下路径，LeCun团队的最新模型，可以让机器人实现这样的能力。

该模型通过结构化动作表示将人体48维关节运动学数据与条件扩散Transformer结合。

利用VAE编码视频帧、自适应层归一化嵌入动作条件及跨历史帧注意力机制等，实现了从全身动作预测第一视角视频的高精度生成与长期时序连贯。

点
击
图
片
看
原
图

PEVA模型让具身智能体不再依赖“上下左右”这种抽象信号进行训练，而是以第一人称视角的视频+全身姿态轨迹为输入，让它 “模仿” 人类第一视角下的动作与感知。

点
击
图
片
看
原
图

通过随机时间跳跃与跨历史帧注意力，解决了扩散模型在长时序动作预测中的计算效率与延迟效应问题。

您的观点至关重要

点击朱笔，直抒胸臆

Pixfuture: super cool 200


© 2026 八阕之地™ by Towards Digital Group	关于我们｜反馈意见｜业务合作｜八阕书局｜隐私政策｜使用条款

LeCun发布最新世界模型：具身智能掌握第一视角量子位 ｜ 2025-06-30