【转载】超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

baicha · 2025 年10 月 20 日 02:15

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在 绝对深度估计（metric depth estimation） 等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架构及训练loss，实现与纯视觉模型同等级别的3D理解能力？」

Meta开源了一项突破性研究工作DepthLM，首次证明了该问题的答案是肯定的！

DepthLM首次证明了语言模型也能准确理解三维空间，并且比专家视觉模型具有更好的灵活性及泛化性。

DepthLM证明了，在无需改动架构的前提下，就能让视觉语言模型（VLM）在像素级「绝对深度估计」 等三维视觉任务上达到与纯视觉模型相媲美的水平。

在此之前，即便是最先进的VLM如GPT-5和Gemini2.5-Pro等，在绝对深度估计上均远远落后于纯视觉模型。

https://mp.weixin.qq.com/s/PmA_d3fFpglJ0s9-K3QxtQ