关闭广告

清华联合字节跳动:AI学会用图像思考,让机器像人一样推理世界

科技行者1462人阅读


这项由清华大学和字节跳动Seed联合发起的研究于2026年1月发表,论文编号为arXiv:2601.19834v1,研究团队提出了一个颠覆性观点:让AI通过生成图像来进行推理,就像人类在头脑中构建"心理图像"一样思考问题。这种全新的推理方式可能彻底改变我们对人工智能的认知。

当你试图回想家里客厅的布局,或者想象将一张纸折叠后打孔会形成什么图案时,你的大脑会自动生成各种视觉画面。这些"脑海中的图像"帮助你理解空间关系,预测物理变化,解决复杂问题。而目前的AI系统,包括ChatGPT这样的语言模型,主要依靠文字进行推理,就像一个只会纸上谈兵的理论家,缺乏直观的视觉理解能力。

研究团队发现了一个有趣现象:尽管当前AI在数学和编程等抽象领域表现出色,但在涉及物理世界的空间推理任务上却表现糟糕,甚至连小孩子都能轻松解决的问题都会出错。这就好比一个学富五车的学者,能够背诵大量理论知识,却不知道如何在现实中应用这些知识。

为了解决这个问题,研究团队开发了一种全新的推理模式。传统AI就像一个只能通过语言描述来理解世界的人,而他们的新方法让AI能够"看到"和"想象"画面,在推理

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一颗卫星“掉链”,为何让全球航天界紧张?

上游新闻 浏览 1877

金棕榈年度女性最佳力作,首次造访艺术影院

幕味儿 浏览 2763

美媒列29岁的阿贾生涯荣誉:3次MVP&DPOY 2次总冠军&7次全明星

直播吧 浏览 2848

66岁安帅径直离场!发布会暴怒:首负日本无法接受,点名狠批1人

我爱英超 浏览 2804

人道局势持续恶化 加沙停火能否进入第二阶段尚存变数

国际在线 浏览 1678

王家卫:“搞金靖”?

马庆云的影音娱 浏览 2528

卡内基梅隆大学团队揭秘:AI绘画无需人工标注也能学会"听话"

科技行者 浏览 2484

鸿蒙智行首款MPV智界V9完成申报,采用7座布局

IT之家 浏览 1639

专访顶新便利餐饮 游仁宏:便利店的核心壁垒,是人与温度

新零售财经 浏览 2693

张雨绮,不能「装死」了

独立鱼 浏览 1373

伊姐周日热推:电视剧《超感迷宫》;电视剧《风与潮》......

伊周潮流 浏览 1628

世体:坎塞洛、巴尔德和赫拉德-马丁各有特点,首发难以确定

懂球帝 浏览 781

B股,最后的金矿?

36氪财经 浏览 1553

谁说了算?泰伦-卢赛前说哈登可以出战,快船官方说卢说错了

懂球帝 浏览 1933

秦雯编剧电视剧被央视撤档 此前王家卫秦雯录音惹争议

鲁中晨报 浏览 15558

白酒困在900天库存里,胡润百强榜中仍占22席,金种子、西凤酒掉队

时代周报 浏览 1834

LG AI Research发布K-EXAONE:万亿参数模型挑战全球AI格局

科技行者 浏览 1563

对话深投控何建锋:当好耐心资本、长期资本、大胆资本|连线两会

中国企业家杂志 浏览 642

足球:雷恩成为欧洲五大联赛第四大球员输送俱乐部

绿茵情报局 浏览 1607

有图无真相?沙特空中球场网传渲染图与官方图片不一致

懂球帝 浏览 2574

汪小菲罕见亲晒儿子正脸照,眉眼像极了大S,凸牙问题还没改善

萌神木木 浏览 2736
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1