JEPA：一种面向世界模型的自监督学习思路 • Eric Zhang

为什么关注 JEPA

JEPA，全称 Joint Embedding Predictive Architecture，是 Yann LeCun 等人提出的一类自监督学习框架。它的核心问题很直接：模型能不能不依赖人工标注，通过观察世界本身，学到对未来、结构和语义有用的表示？

这件事和 world model 很接近。一个有用的世界模型不一定要复原每一个像素，而是应该知道哪些因素重要、哪些变化可预测、哪些信息和决策相关。JEPA 的价值就在这里：它把学习目标从“重建原始输入”转向“预测抽象表示”。

从重建像素到预测表示

很多自监督方法会使用遮挡重建。例如给模型一张被遮住的图片，让它补回缺失区域。这类方法很自然，但也有一个问题：像素细节太多，其中有很多并不重要。

比如一辆车的表面纹理、树叶的细节、道路上微小的噪声，都可能占据大量像素误差，但它们并不一定影响智能体对场景的理解。

JEPA 的思路是：

不预测原始像素，而预测目标区域在表示空间中的 embedding。

也就是说，模型看到一部分上下文后，不需要画出被遮住的部分，只需要预测那部分“语义表示”应该是什么。

JEPA 的基本结构

一个简化的 JEPA 可以分成三部分：

Context encoder
编码可见区域，得到上下文表示。
Target encoder
编码目标区域，得到目标表示。训练时可见，推理时不需要。
Predictor
根据上下文表示预测目标表示。

训练目标不是像素级误差，而是让 predictor 的输出接近 target encoder 给出的表示。

用很粗略的形式写，就是：

context → context encoder → predictor → predicted target embedding

target  → target encoder  → true target embedding

loss = distance(predicted target embedding, true target embedding)

这里的关键是：target embedding 本身是抽象的，它不要求模型保留所有低层细节。

为什么这可能适合世界模型

世界模型的目标不是“拍脑袋生成一张看起来真实的图”，而是为智能体提供可以用于推理和行动的内部状态。

如果模型只学习像素，它可能会把能力浪费在纹理、光照、噪声上。对自动驾驶或具身智能来说，更重要的是：

哪些物体存在；
它们之间有什么空间关系；
哪些区域可能发生运动；
当前状态对未来有什么约束；
哪些变化和行动有关。

JEPA 通过表示空间预测，天然鼓励模型学习更抽象、更稳定的结构。这一点和 object-centric reasoning、scene graph、physical reasoning 等方向是相通的。

和生成式模型的区别

生成式模型通常要回答：“缺失部分长什么样？”

JEPA 更像是在回答：“缺失部分在语义上应该是什么？”

这两个问题不一样。前者可能要求大量细节；后者更关注结构和语义。

对于智能体来说，后一个问题往往更重要。因为行动决策通常不需要知道每一片树叶怎么长，而需要知道前方有没有行人、车辆是否会切入、物体之间是否可能碰撞。

对自动驾驶的启发

在自动驾驶场景中，JEPA 式学习可以给出几个启发：

表示比像素更重要
车辆不需要完整复原摄像头图像，而需要理解可行动的场景状态。
预测应该发生在抽象状态上
比起预测未来视频帧，预测未来 object state、risk state 或 scene representation 可能更直接。
遮挡和不确定性是核心问题
道路场景中经常有遮挡。JEPA 的“从上下文预测缺失表示”与遮挡理解天然相关。
可以连接 closed-loop decision making
如果表示空间和行动后果有关，它就能成为 planning 或 RL 的状态基础。

一个值得继续追的问题

JEPA 的关键挑战在于：表示空间到底应该学成什么样？

如果 target encoder 学到的表示本身不包含物体、关系、动力学或风险信息，那么 predictor 学得再好，也未必有助于智能体决策。

所以，面向自动驾驶和 embodied intelligence 的 JEPA 可能需要进一步引入：

object-centric 表示；
时序预测；
物理约束；
多模态语言监督；
和 action / planning 相关的目标。

小结

JEPA 的核心价值不是一个具体模型结构，而是一种学习观念：

智能体不必重建世界的全部细节，但需要预测世界中对理解和行动有用的抽象状态。

这个思想很适合连接 self-supervised learning、world models、自动驾驶、VLM video reasoning 和 embodied intelligence。后续如果要构建面向闭环决策的世界模型，JEPA 是一个值得持续关注的基础方向。