今日从 arXiv 订阅中筛选 10 篇论文,覆盖世界模型、自动驾驶风险预测、视频推理、具身智能等方向。
⭐ 优先1 Render, Don’t Decode: Weight-Space World Models with Latent Structural Disentanglement (NOVA)
真正方法创新:用INR权重作为world model状态表示,消除解码器瓶颈,零样本超分+场景解耦。40M参数消费级GPU即可运行,有实操价值。
⭐ 优先2 Can Attribution Predict Risk? From Multi-View Attribution to Planning Risk Signals in End-to-End Autonomous Driving
直击主线:用attribution做端到端自动驾驶碰撞风险预测。Spearman 0.30+AUROC 0.77,跨场景泛化稳定,实用性高。
⭐ 优先3 EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields
真方法:将运动学投影到视觉空间做world model,保留几何精确性。WorldArena SOTA,闭环了控制与感知。
4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding
视频理解+推理:让VLM在隐空间内部模拟场景演化(4D mental imagery),DIFT+4DRL训练框架,多个动态空间推理benchmark SOTA。
Reconstruction or Semantics? What Makes a Latent Space Useful for Robotic World Models
好分析:系统性对比reconstruction vs semantic latent space对robot world model的影响。结论:语义编码器(V-JEPA)在策略层面全面优于重建编码器。
PRISM: Perception Reasoning Interleaved for Sequential Decision Making
真方法:VLM+LLM通过DQA(动态问答)pipeline闭环交互,LLM主动提问VLM获取目标导向信息。ALFWorld和R2R上SOTA。
VISD: Enhancing Video Reasoning via Structured Self-Distillation
视频推理+训练效率:结构化自蒸馏框架,将推理质量分解为正确答案、逻辑一致性和时空定位多维指标,2x更快收敛。
TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation
VLA泛化核心问题:用object-hand-task三元关系结构替代隐式视觉表示,跨场景/跨物体/跨任务泛化均显著提升。
Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in Foundation Models
理论框架:论证agentic AI是foundation model OOD泛化的missing paradigm,值得关注思想层面。
HaM-World: Soft-Hamiltonian World Models with Selective Memory for Planning
world model规划:用哈密顿动力学做可微world model,selective memory解决长程rollout不稳定问题。
自动生成于 2026-05-09 · 基于 arXiv Daily Digest