2026-05-09 Paper Reading • Eric Zhang

今日从 arXiv 订阅中筛选 10 篇论文，覆盖世界模型、自动驾驶风险预测、视频推理、具身智能等方向。

⭐ 优先1 Render, Don’t Decode: Weight-Space World Models with Latent Structural Disentanglement (NOVA)

真正方法创新：用INR权重作为world model状态表示，消除解码器瓶颈，零样本超分+场景解耦。40M参数消费级GPU即可运行，有实操价值。

直击主线：用attribution做端到端自动驾驶碰撞风险预测。Spearman 0.30+AUROC 0.77，跨场景泛化稳定，实用性高。

真方法：将运动学投影到视觉空间做world model，保留几何精确性。WorldArena SOTA，闭环了控制与感知。

视频理解+推理：让VLM在隐空间内部模拟场景演化（4D mental imagery），DIFT+4DRL训练框架，多个动态空间推理benchmark SOTA。

好分析：系统性对比reconstruction vs semantic latent space对robot world model的影响。结论：语义编码器（V-JEPA）在策略层面全面优于重建编码器。

真方法：VLM+LLM通过DQA（动态问答）pipeline闭环交互，LLM主动提问VLM获取目标导向信息。ALFWorld和R2R上SOTA。

视频推理+训练效率：结构化自蒸馏框架，将推理质量分解为正确答案、逻辑一致性和时空定位多维指标，2x更快收敛。

VLA泛化核心问题：用object-hand-task三元关系结构替代隐式视觉表示，跨场景/跨物体/跨任务泛化均显著提升。

理论框架：论证agentic AI是foundation model OOD泛化的missing paradigm，值得关注思想层面。

world model规划：用哈密顿动力学做可微world model，selective memory解决长程rollout不稳定问题。

自动生成于 2026-05-09 · 基于 arXiv Daily Digest