李飞飞：空间智能是未来10年AI发展的新前沿

来源：{getone name="zzc/xinwenwang"/}2026-04-17 18:23:04

【文/李飞飞，翻译/鲸生】

1950年，当计算还主要停留在自动算术和简单逻辑层面时，艾伦·图灵提出了一个回响至今的问题：机器能思考吗？要在那个时代提出这样的问题，需要非凡的想象力——智能，或许并非只能诞生于生命体，而是可以被构建出来。正是这一洞见后来开启了一项持续至今的科学探索，我们称之为人工智能（AI）。在我从事AI研究的二十五年中，图灵的远见始终激励着我。但我们究竟走到了哪一步？答案并不简单。

今天，以大语言模型（LLMs）为代表的前沿AI技术，已经开始改变我们获取和处理抽象知识的方式。然而，它们仍像藏身黑暗中的“文字巧匠”：能言善辩，却缺乏经验；知识丰富，却没有扎根于现实世界。空间智能（spatial intelligence）将改变我们创造并与现实世界和虚拟世界互动的方式——它将重塑叙事与创作，推动机器人技术与科学发现，并带来更多尚未展开的可能。这正是AI的下一个发展前沿。

艾伦·图灵(1912-1954）英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家，被誉为计算机科学与人工智能之父。

自从进入这一领域，对视觉与空间智能的探索始终是指引我前行的“北极星”。正因如此，我投入多年时间构建了ImageNet——第一个大规模视觉学习与评测数据集。它与神经网络算法、以图形处理器（GPUs）为代表的现代计算能力一道，构成了现代人工智能诞生的三大关键要素。也正因如此，过去十年来，我在斯坦福大学的实验室持续将计算机视觉与机器人学习相结合。更因为如此，一年多以前，我与联合创始人贾斯丁·约翰逊（Justin Johnson）、克里斯托弗·拉斯纳（Christoph Lassner）、本·米尔登霍尔（Ben Mildenhall）一同创立了世界实验室（World Labs）——希望第一次真正、完整地把这种可能性变为现实。

在这篇文章中，我将尝试解释什么是空间智能，它为何重要，以及我们正在如何构建能够释放这一能力的世界模型。这种进展，将深刻重塑创造力、具身智能，以及人类社会的整体进步路径。

·空间智能：人类认知的脚手架

人工智能的发展从未像今天这样令人振奋。以大语言模型为代表的生成式AI模型已经走出研究实验室，进入日常生活，成为数十亿人进行创作、提高生产效率和沟通交流的工具。它们展现出的能力，曾被认为几乎不可能实现：如生成连贯的文本、如小山一般的代码、栩栩如生的图像，甚至可以轻松产出简短的视频片段。如今，问题已不再是AI能否改变世界——按照任何理性的标准，它都已经做到了。

但与此同时，我们仍然触及不到许多关键能力。关于自主式机器人的愿景虽引人入胜，却更多停留在设想阶段，距离未来学家们长期以来所描绘的“见诸于日常生活之中”仍然很遥远。在疾病治疗、新材料发现、粒子物理学等领域实现研究效率的飞跃式提升，这些梦想也大多尚未兑现。而一种真正理解并赋能人类创造者的AI——无论是帮助学生掌握分子化学中的复杂概念，协助建筑师想象空间结构，支持电影人构建虚幻世界，还是为任何人提供完全沉浸式的虚拟体验——依然遥不可及。

要理解为何这些能力迟迟未能实现，我们需要回到一个更为根本的问题：空间智能是如何演化而来的？它又是如何塑造我们理解世界的方式？

视觉长期以来都是人类智能的重要基石，但它的力量源于一种更为根本的能力。早在动物能够筑巢、抚育后代、使用语言交流或是建立文明之前，最简单的“感知”行为，便已悄然点燃了一条通向智能的进化之路。

这种看似孤立的能力——从外部世界中提取信息，无论是一丝微光，还是触摸到的质感——逐渐在感知与生存之间搭起了一座桥梁。随着世代更迭，这座桥梁不断加固、延展，也愈发精细。从它之上，一层又一层神经元生长出来，形成了神经系统，用以解释世界，并协调有机体与其环境之间的互动。因此，许多科学家推测，正是“感知—行动”这一循环，构成了智能演化的核心动力，也成为大自然塑造我们这一物种的基础——一个集感知、学习、思考与行动于一体的终极造物。

空间智能在决定我们如何与物理世界互动方面，起着根本性的作用。日常生活中，我们在最普通的行为里都依赖它：当倒车入位时，在脑海中想象保险杠与路沿之间不断缩小的距离；伸手接住从房间另一头抛来的钥匙；在人行道上穿行于人群中而不发生碰撞；或者半梦半醒地把咖啡倒进杯子里。在更极端的情境下，消防员需要在烟雾翻滚、结构随时可能坍塌的建筑物中行动，在一瞬间判断稳定性与生存概率，并通过手势、肢体语言以及一种无法用语言替代的职业直觉彼此相互沟通。在尚未学会说话的数月乃至数年之中，婴幼儿则几乎完全通过与环境的玩耍式互动来认识世界。这一切都自然而然地发生，几乎无需刻意思考——而这种流畅性，恰恰是机器至今仍未具备的。

空间智能同样是人类想象力与创造力的基础。讲故事的人在头脑中构建出高度丰富的世界，并借助各种视觉媒介将其传达给他人——从史前时代的洞穴壁画到现代电影，再到沉浸式的电子游戏。无论是孩子在海滩上堆沙堡，还是在电脑上玩《我的世界》，以空间为依托的想象构成了现实或虚拟世界中交互体验的基础。在许多工业应用中，对物体、场景以及动态交互环境的仿真模拟，也支撑着无数关键商业应用场景，从工业设计到数字孪生，再到机器人训练等等。

回顾历史，许多塑造文明进程的关键时刻，都离不开空间智能的核心作用。古希腊时期，埃拉托色尼将对影子的观察转化为几何测算：在锡耶纳（Syene）正午无影的同一时刻，他在亚历山大（Alexandria）测得太阳投下约7度的夹角，从而计算出地球的周长。哈格里夫斯发明的“珍妮纺纱机”则源于一次空间上的洞察：将多个纺锤并排安装在同一机架上，允许一名工人可以同时纺出多根纱线，并将生产效率提升了八倍。沃森和克里克通过亲手搭建三维分子模型发现了DNA的结构——他们反复摆弄金属片和金属丝，直到碱基对的空间排列在眼前“对上了”。在这些例子中，当科学家和发明者不得不操作实体与可视化结构，并在物理空间中进行推理时，空间智能推动了文明的前进——而这些能力，单靠文字是无法承载的。

弗朗西斯·克里克和詹姆斯·沃森构建了一个大型分子模型来详细展示DNA结构

空间智能是支撑我们认知体系的“脚手架”。当我们被动观察或主动创造时，它都在发挥作用；即便在最抽象的议题上，它也驱动着我们的推理与规划；无论是语言交流，还是身体互动，无论对象是他人还是环境本身，它都不可或缺。虽然我们大多数人并不会每天都像埃拉托色尼那样揭示新的真理，但我们思考世界的方式与之并无二致——通过感官去感知一个复杂的世界，再凭借对物理与空间运作方式的直觉理解，让世界变得可解释、可把握。

遗憾的是，今天的AI还无法像这样思考。

过去几年，AI确实取得了巨大的进展。多模态大语言模型（MLLMs）在文本之外，接受了海量的多媒体数据训练，初步引入了某种空间意识，使今天的AI能够分析图片、回答相关问题，并生成高度逼真的图像和短视频。与此同时，随着传感器和触觉技术的突破，目前最先进的机器人也开始能够在高度受限的环境中操作物体和工具。

但坦率地说，AI的空间能力仍然远远落后于人类，而且这种差距很快就会显现出来。目前最先进的MLLM模型在判断距离、方向和尺寸，或通过重新生成不同视角来“在脑海中”旋转物体时，其表现往往不比随机式的猜测好到哪里去。它们无法在迷宫中导航、识别捷径，或预测最基本的物理结果。AI生成的视频——刚刚起步时，确实令人惊艳——往往在播放几秒钟之后就失去连贯性。

尽管当前最前沿的AI在阅读、写作、研究以及数据模式识别方面表现出色，但在表征或与物理世界互动时，这些模型却面临根本性的限制。人类对世界的理解是整体性的：不仅是“看到了什么”，还包括事物之间在空间上的关系，这意味着什么，又为何重要。通过想象、推理、创造和互动来理解世界，而不仅仅是通过描述——这正是空间智能的力量。缺乏这种能力的AI，会与它试图理解的物理现实脱节。它无法可靠地驾驶汽车，无法在家庭或医院中引导机器人工作，无法真正开启沉浸式、可交互的学习与娱乐体验，也难以在材料科学或医学领域加速新发现。

哲学家维特根斯坦曾写道：“我的语言的界限，意味着我的世界的界限。”我并非哲学家。但我知道，至少对AI而言，世界不应只有语言。空间智能代表着语言之外的前沿——一种连接想象、感知与行动的能力，为机器真正地改善人类生活打开新的可能性，无论是医疗健康、创造力、科学发现还是日常辅助等领域。

[责编：{getone name="zzc/mingzi"/}]

阅读剩余全文（）

全部导航

李飞飞：空间智能是未来10年AI发展的新前沿