关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2727人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

被称为“电动化”的时代 燃油车杀回来了?

道哥说车 浏览 2714

阿里前主席张勇,花5354万港元买了套香港半山豪宅

财通社 浏览 2554

一图看懂|朝鲜庆祝空军成立80周年 展示了哪些新式武器

澎湃新闻 浏览 2023

比亚迪明星高管赵长江确认离职,已在比亚迪工作16年

红星资本局 浏览 2560

7天票房2.3亿,差评满天飞的“大烂片”被捧上日冠,中国观众咋了

娱乐圈笔娱君 浏览 1618

中国色特别策划 | 故宫书画与百年墨华

时尚COSMO 浏览 2024

博斯:19轮联赛打进72球,这足以说明拜仁的实力有多强

懂球帝 浏览 1404

「AI新世代」印奇掌舵阶跃星辰背后:一部中国AI的“实干派”进化史

华夏时报 浏览 1443

无论女人多大年纪,秋天都要准备几件“针织衫”,温柔舒适

静儿时尚达人 浏览 2486

新增双色特别涂装 全新宝马X7将2027年上市

车质网 浏览 1343

贝弗利:安东尼曾因不想跟林书豪同队而没跟哈登和霍华德组三巨头

懂球帝 浏览 2468

马英九祝贺郑丽文当选:坚守"九二共识" 促进两岸关系

参考消息 浏览 6759

俄大使:美袭击时 委防空系统远程预警站通信出问题

参考消息 浏览 1550

俄石油贸易商要求印度简化流程:直接付人民币

澎湃新闻 浏览 3782

与美主持人激烈辨论后被闭麦 万斯怒了

环球网资讯 浏览 6774

闫学晶奢侈风波升级!官媒出手锐评

网络易不易 浏览 1650

推广|| 被低估的百元级国货!推荐你们趁好价试试

黎贝卡的异想世界 浏览 4227

《向往》收视回暖!黄磊动手做饭,明星干农活

萌神木木 浏览 2524

性能再升级 保时捷911 GT3 Manthey官图发布

车质网 浏览 2178

央视披露解放军实战演练"斩首"行动画面

北京日报 浏览 1347

能把埃尔法打下神坛?智界V9申报图曝光 定价50万左右

网易汽车 浏览 1582
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1