首页 > 快讯万字对谈MIT人工智能传奇人物Tomaso Poggio

万字对谈MIT人工智能传奇人物Tomaso Poggio

2026年03月06日 09:06

保罗：今天这位嘉宾的履历实在太过丰富，我恐怕难以在几句话中介绍清楚。他是托马索·波焦（Tomaso Poggio）。至于他的头衔，实在太多了。

他是麻省理工学院脑与认知科学系的Eugene McDermott讲席教授，麦戈文脑科学研究所研究员，麻省理工学院计算机科学与人工智能实验室（CSAIL）的成员。此外，他还分别是生物与计算学习中心以及脑、心智与机器中心两个研究中心的负责人。

托马索发表论文的年头，比我的年纪还要大，而我也早已不再是初出茅庐的毛头小子了。在谷歌学术上，他最早的一篇论文发表于1972年，刊登在Kybernetik上。论文题目是《时间记忆与视动反应的全息特性》（Holographic Aspects of Temporal Memory and Optomotor Responses）。

简而言之，他在这条路上已深耕多年。他究竟在探寻什么？答案是智能背后的理论基石。其中的关键词在于“理论”，托马索始终对智能背后的理论原则感兴趣。为此，他将人工智能与大脑的运作机制并置研究。

我们今天拥有非常出色的人工智能。这样的系统已经存在一段时间，从最初并不成熟，发展到如今性能惊人，并且仍在不断进步。但从根本上讲，我们依然没有看透它是如何运作的。人工智能的早期发展当然有理论基础作为起点。但近年来这波汹涌的AI浪潮，本质上是由工程实践驱动的，在于构建和扩展系统，而不是在深入理解其原理。

托马索用一个历史类比，来说明当前人工智能领域工程与理论之间的关系。他认为，我们现在的处境有点像当年伏打与麦克斯韦之间的那段时期。当年，亚历山德罗·伏打（Alessandro Volta）发明第一块电池之后，人类第一次获得了持续稳定的电源。随之而来的是大量应用的出现，人们开始利用电，并逐渐将其工程化。但那时，人们并不真正理解电的本质。直到多年以后，詹姆斯·麦克斯韦（James Clerk Maxwell）提出电磁方程组，系统建立起电磁学理论，人类才真正理解电磁现象的规律。正是这套理论，使后来一系列技术得以发展，包括计算机以及现代人工智能。在托马索看来，今天的人工智能，很可能正处在伏打与麦克斯韦之间的阶段。

在那个时期，从工程突破到理论成熟，中间经历了很多年。当然，当时的信息传播远比今天缓慢。正如托马索稍后提到的，那时消息主要靠马匹传递。但即便如此，从电池被发明，到相关应用逐步出现，再到人们真正理解电为何以及如何运作，这之间依然相隔多年。他认为，我们今天正处在类似的阶段。因此，他多年来孜孜不倦地钻研那些理论原则，试图以此照亮我们对智能运作机制的理解之路。

今天，我们会讨论他近年来一直在研究的一些理论原则。在他看来，如果想构建一个高效、可计算的函数系统，并让这些函数组合出一个能支撑智能行为的泛化计算体系，那么这些原则在理论上是非常重要的。

如果要给这些原则一个名称，其中一个则是“稀疏组合性”（sparse compositionality）。它的含义是，如果你希望高效地计算出某种智能行为，那么这个系统需要由许多相对简单的函数构成。这里的“简单”，指的是每一个函数本身只依赖于少量变量。当系统具备这样的结构，由多个低维函数组合而成时，从理论上说，它更有可能实现泛化。

这也解释了为什么深度神经网络需要“深度”才能发挥作用。它依赖于大量简单函数的重复与组合。这种结构听起来有些像大脑的新皮层。我们在对话中也讨论了，这些原则是否只适用于人工智能和深度学习，还是同样适用于我们的大脑。此外，对话中我们还谈到了他是如何发展出这些理论，以及他为何选择从理论角度理解智能的。

在这次对话中，我尤其享受于托马索分享他数十年来与不同领域杰出人物合作、研究有趣问题的经历，而且他至今仍在继续这样的工作。我们这次对谈，只谈到了托马索多年研究中的一小部分，从而了解到了他工作的一个侧面。下面，让我们正式开始。

学习：通向智能理论的真正入口

保罗：大多数科学家在科研生涯中都会经历乐观与悲观的起伏，尤其是在早期阶段。也许那正是关键所在，我也说不太准。这种起伏既体现在对自己研究进展的判断上，也体现在对整个领域前景的看法上。

举个例子，当年你和大卫·马尔（David Marr）提出分析层级框架，后来又把“学习”加入为第四个层级。我想，当时你应该是乐观的，觉得这会真正开启一个新的维度，也可能会加快研究进展。如果大家意识到，学习才是需要关注的重点，或许整个领域都会因此受益。而且，从你的研究轨迹和做事方式来看，，你似乎是一个无论境遇如何，都能稳步向前的人。你是个例外吗？还是说，在这方面你也和常人无异，同样会经历这种起伏？

托马索：我也会经历那种起伏。有些起伏很大，可能持续几个月，甚至几年。也有小的，日常的波动，就像是今天乐观，明天又悲观的表现。“我能证明这个定理，我已经证明了。”然后又发现，“不对，我错了。”诸如此类。

至于把“学习”作为第四个层级加入框架，那是后来回顾时的说法。其实在很多年之前，我已经意识到了学习的重要性。

我第一篇关于机器学习的论文，大概是在1981年左右，讨论的是非线性学习。不过当时我决定先去研究其他问题，比如人类视觉、立体视觉，我们如何看到三维世界。在真正回到学习这个主题之前，大约花了十年时间做这些研究。可以说，关于学习的研究我是晚了一些才重新展开的。

保罗：是因为学习这个问题更难，还是因为那些其他的问题更有吸引力呢？

托马索：主要是那些问题更容易下手，而学习确实更具挑战性、更难一些。而且我一直有一种偏好，也许是错误的偏好。回头看，我总希望在做应用或演示之前，先在理论层面理解一种新方法。这更多是一种研究取向的差异，有些人倾向于先尝试，如果有效，再去发展理论，或者干脆不发展理论。比如杰弗里·辛顿（Geoffrey Hinton）就更偏向那种做法，而我恰好相反。

有时候，这种理论优先的做法可能限制了我原本可以更早尝试的事情，但没办法，这就是我的思考方式。直到1990年，我建立起一个机器学习的理论框架之后，才开始把学习方法应用到各种问题上，比如计算机视觉、计算机图形学、基因芯片中的癌症检测、文本分类、自动驾驶，几乎涵盖了今天人们仍在研究的许多方向。当时使用的主要是浅层网络，比如径向基函数网络和核方法，这些90年代的技术。

保罗：那时候计算资源有限，网络规模也更小，所以实现起来更困难。但从某种意义上说，那些方法反而更有理论基础，是吗？

托马索：是的。1990年，我和一位出色的合作者费德里科·吉罗西（Federico Girosi）一起写了一篇论文，讨论了这种浅层网络的理论。那实际上是一套关于“核机器”（kernel machines）的理论，只是当时这个术语还没有被正式使用。在有了这套理论之后，我才开始把学习方法应用到遗传学、视觉、图形学等问题上。

保罗：也就是说，在有了理论之后，你才觉得可以自由地去做那些应用。

托马索：是的。

保罗：我明白，这是你的风格。

托马索：没错。从某种意义上说，我对此有些遗憾。也许后来我学到的一点教训，和伏打的故事有关。

这只是一个比喻，不必过于字面理解。正如那句话所说，历史不会简单重复，但有时会以相似的方式出现。伏打与电学的这个类比，本身就值得思考。很多人或许没有意识到，在1800年之前，也就是两百多年前，当时正值拿破仑时代，信息传播的速度基本上就是马匹的速度。

在那之前，人类历史上信息传播从未比马更快。有一些有趣的历史书信，记录了人们得知君士坦丁堡陷落时的反应。这在当时的基督教世界是一件重要事件，大约发生在1453年。人们在巴黎、维也纳之间互相通信。在巴黎，有人写信问：“你听说了吗？君士坦丁堡被土耳其人攻陷了。”在马德里，也有类似的书信。那时，我们甚至可以追踪信息传播所花费的时间：传到维也纳用了三周，到巴黎用了四周，到马德里用了五周。花费的时间，差不多就是一匹马连续奔跑所需的时间。

保罗：前提是天气还得不错。

托马索：是的，前提是天气好。1800年，伏打的时代，也是拿破仑的时代。在那之前，人们对电的认识基本上只停留在闪电这样的自然现象上。直到伏打发明了第一种能够持续产生电流的装置，科学家第一次可以在实验室里系统地研究电现象。随之而来的是一连串发现，几乎可以说是一场科学的“雪崩”。接下来的十五到二十年里，电化学迅速发展。随后，人们陆续提出了电学的一系列基本定律，比如欧姆定律、安培的电磁理论，法拉第发明了发电机和电动机，厄斯特揭示了电与磁之间的联系。所有这些成果，最终在1864年达到高潮。那一年，麦克斯韦提出了著名的四个电磁方程，系统地建立起电磁学理论。

保罗：是的，他建立了一整套理论。

托马索：这可是花了整整六十年。

保罗：而且还是按“马车时代”的速度算的。

托马索：是的，不过那依然是很长的一段时间。在那六十年里，在麦克斯韦出现之前，人们其实并不知道电究竟是什么。但这并没有妨碍电动机、发电机等重要应用的发展。这正是我想说的启示。在人工智能领域，我们今天很可能也正处在伏打与麦克斯韦之间的某个阶段。只是，我们究竟走到哪一步了，很难判断。

保罗：是的，我们现在可比马跑得快多了。我听你讲过这个类比。不过我也听你在别的场合提到过另一种可能：也许人工智能并不需要自己的“麦克斯韦”，也许并不一定需要一套统一理论。可你自己又在努力推动理论的发展。这两种说法怎么协调？我很难想象你真的相信“不需要理论”。你这么说，是不是在承认某种你自己都不信的可能性？

托马索：是的。某种程度上，我确实承认了一种自己并不真正相信的可能性。不过，我还是希望我们需要理论，而且最终也会有理论。至于它会有多完整，我不知道。但我几乎可以肯定，它不会像麦克斯韦那样，用四个方程就统一一切。它更可能是一组关于“智能的基本原则”。

就像分子生物学那样。我们并没有几条简单的方程来解释生命，但我们有一些根本性的原则。比如DNA的双螺旋结构如何复制和传递生物信息。这本身就是一个极其优雅的原理。我想，关于智能的理论可能也会类似。它们是基础性原则，但未必会像电磁学那样，形成一套高度封闭、完整的数学体系。这是我的期待。当然，也始终存在另一种可能：也许机器学习系统、大型语言模型，或者它们的继任者，会自己发展出某种理论，而我们却未必能够理解它。

保罗：你刚才提到“原则”，这一点很有意思。我最近和一位神经生理学家亚历克斯·迈耶（Alex Meyer）聊过。他最近对“整合信息理论”（Integrated Information Theory）非常着迷，认为它可能解释意识。他之所以着迷，是因为这套理论有一整套严格的数学形式。它似乎让人看到一种可能，也许我们可以为意识建立数学定律。而这种形式化的表达，往往会让科学家特别有满足感。

当然，进化论、分子生物学、DNA双螺旋，这些都是重要的原则，但它们不像自然定律那样有精确的数学表达。某种程度上，我们这些科学家似乎只有在把现象写成数学关系时，才真正感到安心。我本来想说“简化”，但也许更准确的词是“形式化”。那么，你在研究学习理论和机器学习理论时，追求的也是这种形式化的原则吗？

托马索：我想是的。我追求的确实是原则，而且是具有数学结构的原则。

保罗：我们接下来要谈的“稀疏性”和“组合性”，本质上也是原则。但要对它们作出具体而严谨的陈述，就必须通过定理来证明。而这正是你一直在做的事情。

那这和“形式化的数学定律”有什么区别？它们算是原则，还是定律？

托马索：像“稀疏组合性”（sparse compositionality）这样的原则，是一个很有意思的例子，我们稍后可以详细讨论。我们可以证明，如果一个函数，或者完成某项任务的能力，是由图灵机在非指数时间内可计算的，那么它必然具有组合稀疏的结构。这是可以严格证明的。这意味着，任何运行在计算机上的系统，比如ChatGPT，都必然是组合稀疏的，因为它们本质上是在图灵机上实现的。但这并不意味着，人脑所做的一切也都是组合稀疏的。因为我们并不知道，大脑的全部能力是否都可以被机器完全复现。大多数人相信可以，不过——

保罗：我明白，这是你的风格。你自己呢？

托马索：我并不完全相信。这个问题我们可以稍后再谈。这里还有一个关键点。所谓“可计算”，并不是指在理论上可以算出来，而是指“高效可计算”。也就是说，它必须能够在合理时间内算完，而不是说要算上个宇宙年龄那么久，对吧？

所谓“合理时间”。换个说法，有些物理过程，比如混沌系统，例如天气的形成和演化，很可能并不是“高效图灵可计算”的。原因在于，如果你想在未来保持一个固定的预测窗口，也就是说，希望预测的时间范围不随着时间推进而缩短，那么你就必须以指数级的方式提高对初始条件的测量精度。从理论上讲，它当然是可计算的。但它并不是“高效图灵可计算”的。这里存在一个所谓的“可预测窗口”。顺便说一句，这也许和意识的问题有关。也许意识本身并不是图灵可计算的，就像我们无法以任意精度预测三天后的天气一样。

保罗：我几乎无法想象意识是图灵可计算的。亚历克斯·迈耶有一个观点。他希望在某种数学结构与“现象意识”的属性之间建立一种同构关系，比如主观体验，也就是所谓的“感质”（qualia）。他刻意把意识和认知区分开来。因为认知可以被理解为函数。人工智能做的事情、神经网络实现的计算，本质上都是函数映射。但“同构”与“函数”是两种完全不同的概念。这之间有很大的差别。

托马索：是的。在我看来，你有一类函数，它们本质上是可组合的，也能被计算机计算；而另一类函数则太复杂了，没办法在合理的时间内算出来。

保罗：学习本身也是一种函数。自从你把“学习”作为第四个分析层级提出之后，它是不是就成了你长期关注的核心问题？你几乎一直在研究它。我真正想问的是，这些年你对“学习”的看法有没有发生变化？有没有哪些你过去深信不疑、现在却不再认同的观点？还是说，你的思路一直都是稳步推进，并没有大的转折？

托马索：我一直认为，学习是真正通向智能的大门。改变的，其实不是我对学习重要性的看法，而是计算机科学界对它的态度。很长一段时间，我一直在对计算机系的同事们说，学习至关重要。但大概是在2010年左右，他们才开始认真听我说，至少在麻省理工学院是这样。

保罗：他们为什么不愿意接受？当时的症结在哪里？

托马索：这个问题很有意思。其实，如果从历史上看，这种情况是有有迹可循的。自1950年代左右计算机科学形成以来，这个领域的基本研究范式一直是“编程”。

保罗：算法，以算法为核心的编程。

托马索：对。你告诉计算机该做什么。哪怕任务再复杂，本质上也是由人来写程序、给出明确的指令。研究者的职责，就是写出一个足够聪明的程序。这种模式大概一直持续到2000年前后，甚至2010年左右。但如果看看今天的计算机科学，它已经完全变了。几乎所有方向都围绕机器学习展开。过去，编译器、程序语言、机器人、计算机视觉、自然语言处理，这些都是彼此独立的领域，各自为政。现在几乎都被机器学习统一了。早在1990年左右，我就说过，机器学习会成为计算机科学的“通用语言”。只是，这个转变确实花了很长时间。

我记得在1980年代，我们在麻省理工学院已在使用电子邮件。那时我还担任一家很有意思的小公司的顾问，这家公司叫“思维机器公司”（Thinking Machines）。他们开发了一种叫“连接机器”（Connection Machine）的超级计算机，内部有一百万个非常简单的处理单元。当时我是他们的企业研究员。另一位企业研究员是理查德·费曼（Richard Feynman）。

保罗：你的老朋友吗？

托马索：对，还有史蒂芬·沃尔夫勒姆（Stephen Wolfram）也是。

当时公司里还有几位同样很有意思的人。那时候，在我看来，电子邮件显然是未来的发展方向。但人们又过了整整15年才真正停用传真机。

保罗：上个月我还被迫发了次传真，我完全搞不懂为什么还要用这玩意儿。

托马索：当时我基本都放弃电子邮件会普及的希望了，结果它当然还是来了。

保罗：到那时，你可能已经开始用Slack*之类的工具了吧。神经网络其实一直都在。PDP学派，也就是“并行分布式处理”那一批研究者，多年来一直在强调学习的重要性。问题在于多层网络的训练，尤其是反向传播算法（backpropagation），曾经被认为太慢、效率不高。当然，情况在2012年发生了改变。那一年，在ImageNet数据集上的突破显著降低了错误率。所以，并不是神经网络不存在，而是它们真正发挥威力，经历了一个漫长的过程。

*译者注：Slack是一种企业内部即时通讯与协作工具，在科技公司和研究团队中被广泛使用。

托马索：神经网络确实一直存在。但我当时是个怀疑者。从某种意义上说，我错了。

保罗：错在哪儿？

托马索：在神经网络的问题上。我当时主要使用的是浅层神经网络，而不是深度网络。因为在2008年，甚至2010年之前，浅层网络的表现其实并不比深度网络差。这牵涉到另一个话题，就是技术如何影响思想。我们常常以为，是理论和算法推动了技术的发展。但很多时候，恰恰是当下的技术条件决定了我们能做什么。什么是可行的，什么是容易实现的，什么又太困难。这些都会在很大程度上影响我们提出什么样的理论，以及采用什么样的算法。

保罗：是的，杨立昆也曾强调过这一点。历史上这样的例子太多了。

托马索：没错。我记得大约在1999年左右，我坐过一辆梅赛德斯在德国斯图加特测试的自动驾驶汽车。

保罗：真的假的？

托马索：是的。那辆车当时可以在斯图加特市中心狭窄的街道上自动行驶。当然，驾驶座上还是有一位司机，双手几乎贴着方向盘，以防万一。后备箱里塞满了计算机设备。我记得，当时有一场为期三天的自动驾驶研讨会，只邀请相关人员参加。最后半天出席的是律师。研讨会结束时，戴姆勒·奔驰的管理层就拍板了：“不搞自动驾驶了，砍掉这个项目。”

保罗：我刚想说两件事。第一，我敢打赌，那辆车的计算系统里肯定没用上福岛邦彦（Kunihiko Fukushima）的“新认知机”模型。

托马索：怎么会？不，其实用到了，因为我们当时做的基本上就是类似的东西。比如，我们训练了一个行人检测系统。当时只用了大约200个样本。以今天的标准来看，这几乎难以想象。从科学研究的角度讲，那个系统表现得相当不错。但从实际应用的角度看，它每十秒钟大约会出现三次错误。虽然按帧数计算，错误率其实并不算高，远远不到每一帧都出错。但在真实驾驶环境中，这样的错误频率显然是不可接受的。无论如何，它都还谈不上真正可用。

保罗：托马索，交个底吧，那天你们到底“撞”了多少人？

托马索：没有撞到真正的人啦。

保罗：我还以为你会说，最后他们承诺“五年内就能实现自动驾驶”，因为科技圈的承诺永远都是“再过五年”。结果你却说他们直接说“不搞了”，看来律师确实起了作用。

托马索：总之，戴姆勒公司内部终止了这个项目。其实挺可惜的，当时他们确实走在最前沿。只是时机太早了。

保罗：你刚才说那辆车，是在1999年左右？

托马索：差不多吧。也许是1997年左右。

保罗：我读过你的自传。当然，在那之前我也已经了解了你很多研究工作。你在书里提到，自己在1980年代初期就开始做目标识别的研究，也就是在当时的场景里，检测行人或物体。这显然和神经网络中的学习问题密切相关。你当时曾怀疑，休伯尔（David Hubel）和维泽尔（Torsten Wiesel）提出的“简单细胞”和“复杂细胞”模型，是否真的能够通过层级组合构成对物体的表征。后来你承认自己错了，并发展出HMAX模型，也就是基于层级结构的目标识别系统。那段时间，你是怎么理解“学习”这个问题的？

托马索：在那个时候，我们所谓的“学习”，其实只发生在最后一层。前面的层级结构负责做特征处理，但这些特征并不是通过复杂的学习得到的，而是用一种很简单的方式构建出来。比如，从图像里随机取一些局部片段作为特征。真正的学习，主要是训练分类器的权重，也就是网络最后一层的参数。

保罗：明白了。

托马索：原因在于，我当时真的不相信“反向传播”在生物学上是合理的。

保罗：你这个怀疑是有道理的。

托马索：从某种意义上说，我当时是对的。但在机器学习的实践层面，我又是错的。我当时是被这个“生物学约束”给绊住了。现在，我们开始有一些新的想法。从神经科学的角度看，这些模型似乎更合理。当然，我不知道它们是不是对的，这还需要实验来检验。但至少，是有可能的。

它未必是严格意义上的反向传播。更像是一种更一般形式的梯度下降。而这种机制，也许可以通过神经元连接的自组织方式自然实现。听起来有点神奇，但未必真的那么神奇。我觉得，这是神经科学里一个非常关键的问题。因为如果我们真的能在大脑里找到某种与反向传播等价的机制，那神经科学和机器学习之间就会建立起一种非常深的联系。到那时，我们就可以看着具体的神经回路、突触结构，说：“哦，这里正在发生这样的计算。”

保罗：这算是个题外话，我稍微跳一下话题。你刚才提到自己在做一些自组织、具备生物可行性的可塑性网络模型。其实这些年也有不少研究在尝试提出“生物学版本”的学习机制，希望在功能上复现反向传播。已经有好几种概念验证方案了，只是它们在多大程度上真正模拟了反向传播，效果各有不同。

我最近读了你的一篇论文，里面几乎全是深度学习理论的术语。我心里在想，“天哪，我也算懂一点，比如流形之类的概念，可一旦进入那些技术细节，就有点跟不上了。”你显然已经完全沉浸在那个世界里。所以我很好奇，你平时思考问题时，更多是在机器学习的框架里思考，还是在生物学习的框架里思考？如果这两者可以区分的话，你的大脑大概是怎么分配的？

托马索：很长一段时间里，大概是五五开。但在过去五年左右，我可能稍微更偏向人工神经网络这一侧。

保罗：是因为那里的数据更充足，更方便做验证吗？

托马索：也不完全是，不单纯因为数据。更主要的原因是，我一直被一个问题困扰：我们到底需不需要一套真正的理论？这两三年来，我越来越觉得，自己可能抓到了一些原则。当然，我并不认为它们是最终答案，更谈不上是最关键的原则。但至少，它们看起来像是理解人工机器学习系统时绕不开的一部分。

为什么浅层理论不够？

深度与组合结构的必要性

保罗：那我们现在就来谈谈这些吧。“稀疏组合性”是你目前关注的核心原则吗？

托马索：它是其中之一。对我来说，它确实解决了一个长期困扰我的问题。正如我之前提到的，我总是需要对正在发生的事情至少有一个理论上的轮廓性的理解。大约在2003年左右，我和一位非常著名的数学家史蒂芬·斯梅尔（Stephen Smale）一起，为美国数学学会写了一篇关于机器学习的综述文章。在那篇文章中，我们比较系统、也相当完整地梳理了浅层网络、核机器等模型的理论基础。

当时在讨论部分，我专门写了几段文字，谈到一个让我始终想不通的难题。按照当时的理论框架，浅层网络已经足够表达我们关心的函数，并不需要多层深度结构。可是从生理学角度看，例如视觉皮层的结构，却明显是多层级组织，而且这些层级似乎具有功能上的重要性。于是问题就出现了。既然浅层理论已经足够，为什么大脑却是分层的。深度到底有什么必要性。这个问题让我卡了很久。在真正愿意去接受并应用深度网络之前，我始终没有想明白这一点。后来我逐渐意识到，“稀疏组合性”很可能正是这个谜题的答案，同时也解释了其他类似的问题。

保罗：我可以想象两种路径。一种是，你先训练深度网络，然后去观察它们的内部表征，从这些表征中总结出某些结构性的规律。另一种是，你从一个更偏理论、更强调原则的角度出发，先思考哪些结构特征在原理上应该是重要的。你的想法是怎么形成的？

托马索：更接近第二种方式。这个想法最初其实是为了回答另一个相关的问题，那就是，为什么卷积神经网络似乎明显优于全连接网络。在卷积网络中，就像视觉皮层一样，每个神经单元只接收一小部分输入，而不是连接到所有输入。举个简单的例子。假设你有大量感光受体，也就是视网膜上的光感受器。第一层中的每一个单元，只会“看到”其中一个很小的局部区域，而不是整个输入图像。

保罗：也就是一个小的局部区域。

托马索：对，就是局部区域。于是我开始思考这样一个问题。假设我们有一个多变量函数。为了简单起见，我们设它有八个输入变量，记作X1、X2、一直到X8。现在再设想，这个函数并不是一个“整体式”的函数，而是具有某种层级结构。也就是说，它是“函数的函数的函数”。例如，我们先定义一个关于X1和X2的函数。再定义另一个关于X3和X4的函数。接着，再定义一个函数，把前面两个函数的输出作为输入。依此类推。从结构上看，它就像一棵二叉树。最底层是八个输入节点，而每一个上层节点，都是由两个变量，或者两个子函数的输出，组合而成。

这个结构，可以看作是卷积神经网络的一种“玩具模型”。这里卷积本身并不是关键。所谓卷积，就是权重在平移下保持不变。但真正重要的，是这种“局部组合”的结构。如果我们考虑一个普通的八变量函数，在一般情况下，就会遇到所谓的“维度灾难”（curse of dimensionality）。换句话说，为了逼近这样一个函数，你所需要的参数数量，往往会随着变量数量呈指数级增长。而指数级增长，在计算上是灾难性的。

保罗：如果这些变量彼此独立，没有高度相关性，那就是最糟糕的情况。

托马索：没错。函数的平滑性在某种程度上可以缓解这个问题，但根本的困难还是会出现。举个例子，如果我们有一个包含一千个变量的函数（其实这并不算多），一张32×32的小图像就大约有一千个像素。现在设想，我们要逼近一个关于这1000个像素的函数，并允许大约10%的逼近误差。在一般情况下，你可能需要大约101000个参数。这是一个极其巨大的数字。作为对比，宇宙中质子的总数大约是1080。

保罗：我就知道你会用电子或者质子的数量来做类比。一旦参数数量超过宇宙中质子的总数，那肯定不是个好兆头。

托马索：但如果这个函数具有我刚才说的那种结构，也就是“函数的函数”的层级结构，情况就完全不同。我们最初称之为“层级局部性”，现在更准确的术语是“稀疏”。所谓“组合稀疏”，是指整个函数是由多个子函数组合而成，而每一个子函数只依赖于少量变量。

保罗：这里的“稀疏”是一个精确定义的概念吗？还是只是一个方向性的说法？比如，稀疏是不是意味着变量少于三个？还是说只是相对而言比较少？

托马索：它首先是一个方向性的概念。不过考虑到指数级复杂度带来的后果，我会给出一个数量级上的判断。比如在二值变量的情况下，“稀疏”大致意味着每个子函数所涉及的变量数量少于40个。

保罗：明白了。

托马索：如果是非二值变量，那么这个数量级大概在14个左右。

保罗：那这显然是非常稀疏了。

托马索：是的。

保罗：那么，“稀疏”是一方面。你刚才说“函数的函数”，那既是“组合”的含义，也是“层级”的含义。你能区分一下“层级性”和“组合性”吗？

托马索：严格来说，两者并没有实质差别。我认为它们只是不同的说法。我更喜欢“组合”这个词，因为我们讨论的是函数的组合，也就是函数的函数的函数。这个概念在很多领域都会出现，比如语言学中的“组合性”。意思是，我们可以用简单的基本单元，构建出更大的结构、更丰富的意义。诺姆·乔姆斯基强调过这一点。赫尔曼·冯·亥姆霍兹（也曾指出，语言的力量在于能够用有限的简单元素生成无限复杂的表达。但更有意思的是，这种能力并不只属于语言。它实际上是所有能够被高效计算的函数所共有的一个性质。

保罗：也就是说，这是必然的。

托马索：是的，必然如此。

保罗：那么，这里的瓶颈究竟在哪里？关键点是什么？关键在于函数本身吗？如果从进化的角度来想，进化是如何“找到”那些能够在这种稀疏组合结构中高效协作的函数的？听起来这像是一个非常精细、甚至有些脆弱的系统，但我们知道大脑其实是高度稳健的。是否问题的关键在于，你必须选对那些函数？而且无论如何，这些函数仍然需要通过学习获得。

托马索：这个问题非常有意思。我不确定这算是一种冲突，还是说是一条分界线，但它确实揭示了经典数学和计算机科学之间的一种差异。在经典数学中，我们通常是先定义一个函数空间。这个空间具有某些性质，比如不同形式的平滑性，或者满足若干阶导数存在等条件。函数是在这样的抽象空间里被研究的。而在计算机科学中，思路完全不同。计算机科学里，每一个函数都是由少量基本原语构造出来的。你从“与”、“或”、“非”这些最基本的逻辑操作开始，然后通过不断组合，构建出越来越复杂的函数。在这里，“组合”本身就是一种基本操作。因此，对计算机科学家来说，组合性并不是某种偶然的演化结果，而是所有能够被计算的函数必然具有的结构特征。

保罗：明白了。

托马索：对数学家来说，这个观点会更难接受，这并不是他们熟悉的那套思维方式。

保罗：我差点忘了，我们现在是在计算机科学的地盘。一切最终都要回到布尔逻辑，对吧？

托马索：是的。事实上，在我为一个包含28篇文章的理论文集撰写的论文中，有一篇就专门讨论一个问题：“实数是否真的存在？”这并不是一个玩笑式的问题。因为一旦我们谈到图灵可计算性，原则上讲，任何一个数最终都必须被表示为布尔变量，也就是0和1的有限或无限序列。哪怕这个序列非常非常长，本质上它仍然是由布尔值构成的。

从计算机科学的角度来看，实数并不是一个真正“存在”的对象。如果你去看看数学的基础，支撑实数的“连续统假设”，对于基础数学来说也并不是非有不可的。即便放弃完整的实数连续统，我们在很多基础数学结构中也不会损失太多。当然，有些实数是可计算的，比如π或e。但还有大量实数是不可计算的。从某种意义上说，那些不可计算的实数更像诗歌。它们在概念上是存在的，却无法被真正写出来、算出来，或在计算机中实现。

保罗：换句话说，毫无用处。

托马索：在计算意义上，毫无用处。你没法拿它们做实验，什么都干不了。

保罗：好吧，我们刚才讲到哪里了？我们有一组稀疏的组合结构。那么，你究竟证明了什么？

托马索：我们证明的是这样一个命题：任何“高效可计算”的函数，也就是说，能够在非指数时间内由图灵机计算完成的函数，在结构上必然具有组合稀疏性。换句话说，这样的函数一定可以被分解为若干子函数的组合，而每一个子函数只依赖于少量变量。也就是说，每一层都是“稀疏”的。而且，这种分解方式并不是唯一的。对于同一个函数，往往存在许多不同的分解结构。如果把这种分解推到极端，你可以得到一个非常深的层级结构，由最简单、最基础的函数逐层组合而成。最终，这些最基本的操作可以还原为布尔逻辑中的“与”、“或”、“非”。从理论上讲，任何图灵机程序，都可以在数学上等价地转化为一个布尔函数。因此，只要一个函数是高效图灵可计算的，它就必然可以表示为由若干低维、稀疏子函数组成的层级结构。

保罗：那么，从学习的角度来看，如果一个函数确实具有这种由稀疏子函数构成的层级结构，那么学习这些基本的布尔运算及其组合方式，在理论上就不会带来指数级的计算负担，对吗？

托马索：是的。关键在于，如果我能够获得每一个子函数的输入与输出数据，那么每一个子函数本身都是容易学习的。可以用一个多层神经网络来类比。通常，我们只有整个网络的输入，以及整个网络最终的输出。只凭这两端的数据进行训练，确实可能很困难。但如果我能够获得中间层的数据，也就是说，我不仅知道整体输入和整体输出，还知道每一层的输入与输出，那么每一层都可以被单独、高效地学习。既然每一个子函数都容易学会，那最终组合起来的整体函数，自然也就学会了。

这也是Transformer模型之所以有效的原因之一。它的“魔力”在于采用了自回归训练框架。模型不是被要求读完整本书，然后只预测最后一个字、最后一个词，或者最后一句话。它的训练方式是这样的：给定前面的词，预测下一个词。然后把预测得到的结果加入上下文，再继续预测下一个词。换句话说，它不断在学习局部的子任务。每一步，其实都类似于在学习一个小规模的子函数。

保罗：明白了。

托马索：这样一来，我就可以预测下一个词，再把新生成的词加入到当前序列中，继续预测下一个词，如此循环。

保罗：也就是说，你预测出来的那个词，会被纳入新的上下文，然后再用它去预测接下来的词？

托马索：正是如此。

从维度灾难到可泛化：

为什么“少参数”意味着“能泛化”

保罗：我们还是回到机器学习本身。来谈谈泛化能力吧。我知道你很关心这个问题。既然深度网络的优势在于能够表达这种“稀疏组合”的结构，那么这种结构对泛化能力意味着什么？

现在的大多数机器学习任务都非常“狭窄”。而且还有一个著名的难题，叫做“持续学习”。模型在某个任务上训练完成后，一旦转向新的任务，往往不得不重新学习，甚至会遗忘之前掌握的知识。真正难得的是“泛化能力”。那才是人工智能追求的目标，是彩虹尽头的那一罐金子，是所有人都想找到的宝藏。那么，这种稀疏的组合结构，究竟如何帮助我们理解泛化？它和泛化能力之间到底有什么内在联系？

托马索：这种结构，对整个机器学习框架都至关重要。当前主流的机器学习范式，大致可以这样描述。假设我面对的是一个未知函数。以ImageNet为例。我希望完成图像分类任务，一共有1000个类别。我需要一个函数，把一张200×200的图像映射到1000个类别中的某一个。也就是说，把大约4万个输入变量映射到一个类别标签上。但问题在于，我并不知道这个函数的真实形式。我手里只有训练数据，也就是输入图像，以及对应的正确类别标签。训练集中包含大量这样的样本对。我的任务，就是根据这些样本去逼近那个未知函数。

在这个框架下，我需要使用一个足够强大的通用工具，来逼近这个未知函数。“稀疏组合性”这一原则告诉我们，你应该用的通用工具就是深度网络。之所以强调“深度”，是因为只要一个函数是可计算的，它就可以表示为若干子函数的组合。深度结构正是这种组合形式的自然表达。这是数学上的结论，也是理论的核心信息。理论还给出了一个重要的保证。假设你拥有一个多层网络，并且能够成功完成优化，那么你的任务就是调节网络中的参数。可以把这些参数想象成许多旋钮，比如十万个旋钮。你需要不断调整这些旋钮，使网络在训练集上的输出尽可能逼近那个未知函数。换句话说，你要调节参数，让网络在训练数据上实现正确分类。

保罗：弗兰克·罗森布拉特（Frank Rosenblatt）当年确实是用手去拧那些旋钮的，不过我明白你说的是现代意义上的“调参数”。

托马索：是的。理论告诉我们，你不需要无穷多、也不需要指数级数量的“旋钮”。如果函数具有稀疏组合结构，那么所需的参数数量就不会呈指数增长，而是控制在一个非指数级的规模内。这个结论非常重要。它不仅意味着我们能够有效地逼近复杂函数，更关键的是，它为泛化能力提供了保证。本质上，这里存在一种权衡关系。背后当然是数学推导，但直观地讲，如果一个函数可以用相对较少的参数来表示，那么模型不仅能够拟合训练数据，还更有可能在未见过的数据上表现良好，也就是实现泛化。

如果你使用一种需要极其庞大甚至无限参数数量的方法，就会面临两个问题。第一，你在计算上根本无法处理例如101000这样规模的参数。第二，你将无法实现泛化。你只是简单地拟合了训练数据。

保罗：也就是说，如果模型参数过多，本质上就会发生过拟合。

托马索：没错。不过这个问题比较微妙，需要更深入地讨论“过参数化”究竟意味着什么。因为今天的神经网络确实是过参数化的，它们的参数数量往往超过训练数据的样本数量。但关键在于，如果没有“稀疏组合性”带来的理论保证，所需的参数数量会大得多。那样的话，几乎不可能实现我们现在所看到的这种效果。

保罗：我明白了。刚刚我突然想到一个类比。是不是可以把这种函数结构看作处在两个极端之间？一端是传统的符号人工智能。那里有清晰分离的模块，各自执行特定功能，并彼此通信。另一端则是极其底层的实现方式。每一个神经元就像一个简单的逻辑门，执行非常基础的操作，而整个系统的能力来自于这些简单单元的大规模组合。从某种意义上说，这些结构是不是可以理解为一簇簇布尔函数节点的组合，只是它们以更加连续、分布式的方式组织起来。我这样理解对吗？

托马索：可以这样理解。或许最清晰的方式，是回到那棵二叉树的类比。最底层是输入节点，最顶端是一个输出节点。随着结构向上延伸，宽度逐层减少。这有点像视觉皮层的第一层神经元，每个神经元只关注图像中的一个局部区域。接着，在上一层的神经元中，每个单元会接收并整合第一层神经元的输出。

保罗：上一层的单元数量会减少一半，对吗？

托马索：是的。

保罗：也就是说，上层的维度比下层更低？

托马索：正是如此。这个过程可以不断向上推进。每一层神经元读取下层神经元的输出，并将整合后的信息传递到更高层。随着层级上升，单个神经元的感受野会越来越大。这与视觉皮层的组织方式高度相似。在V1区域，神经元的感受野非常小。到了V2和V4，感受野逐渐扩大。而在IT区域，神经元可以整合更大范围的视觉信息。

从AI到大脑：

组合性是否存在于真实神经系统？

保罗：你说“大致相似”，我也觉得只能说是“大致”。不过我还想问，你认为这个理论结果在理解真实的大脑时到底有多大意义？它真的适用于生物大脑吗？

托马索：首先，我并不确定。这是一个开放的问题。

保罗：但我知道你很在意这个问题。

托马索：我当然关心这个问题。我的意思是，从数学角度来说，我可以非常确定地告诉你，像ChatGPT这样的系统，以及所有运行在计算机上的类似系统，都必须具备“稀疏组合性”。凡是能够在计算机上高效运行的系统，都必然具有这种结构。这一点几乎是逻辑上的必然。

但对于人类大脑，我无法给出同样确定的结论。我猜测，大脑的某些功能，例如语言、数学，以及其他一些明显具有结构性的认知能力，本身就表现出强烈的组合特征。它们似乎天然符合这种层级分解的形式。但也可能存在另一种情况。比如进化上更古老的脑区，例如我们鱼类祖先所具有的中脑结构，或者像基底节这类深层脑结构，那里也许并不存在明显的模块化，也未必体现出清晰的组合结构。是有这种可能的。

保罗：是的，比如说，如果基底节只是起到“增益调节”的作用，那它本身可能就不需要那种组合结构。

托马索：也许确实不需要。也许我们甚至无法高效地模拟它。这种说法多少有点科幻意味，只是一种理论上的可能性。我并不是在断言这一点。就我个人而言，我并不认为大脑中存在某种功能是完全无法用计算机程序描述的。但我也承认，这种可能性在逻辑上不能被彻底排除。

保罗：目前还没有定论。你大概更倾向于认为，真正与智能密切相关的是大脑皮层，对吗？换句话说，人工智能主要是在模拟皮层功能。

托马索：我认为，大脑皮层很可能具有明显的组合结构，因此也更容易在计算机中加以模拟。至于大脑的其他部分，就未必如此。这其实有点讽刺。按照直觉，那些在进化上更古老、结构看起来更简单的脑区，反而可能更难被模拟。

保罗：目前也没有跨物种的证据，能够证明这种组合结构确实存在于大脑中，对吗？

托马索：没有。

保罗：我还想问一个问题，物理学之所以成功，很大程度上依赖于理论与实验之间的持续对话。理论家提出假设，实验者去验证，然后再反过来修正理论。在你这种情况下，作为一个偏理论的人，你会主动去寻找实验验证吗？你会不会去说服实验学者，比如说，“我需要这组数据”，或者“看看我的理论，大脑里有没有这样的结构”？你通常是如何推进这种合作的？

托马索：我在职业生涯中一直在这么做。只是最近几年可能少了一些。我至今都忘不了那种兴奋感。有一次，我对果蝇的行为提出了一个理论预测，其实是一个相当简单的预测。后来实验做出来，结果竟然完全符合——

保罗：天哪。那种感觉一定非常震撼吧。

很多理论学者都会有一种感觉：理论在逻辑上是成立的，所以它“必然”是正确的。对理论本身，他们已经建立起一种高度的信心。但真正看到理论在现实世界中被验证，看到实验结果与推导严丝合缝地对应，那又是完全不同层次的体验。

托马索：没错，正是这样。这种体验很有意思，而且是分层次的。虽然我不是数学家，也算不上优秀的数学家，但有几次我确实证明过一些结果，那种感觉确实令人兴奋。但当实验真正验证了你的理论，那种兴奋是完全不同的。

保罗：我其实有很多问题想问，所以在对话过程中一有机会就忍不住插进来。你觉得，谁更需要深度学习理论？是那些构建人工智能系统的机器学习工程师，还是试图解释大脑机制的神经科学家？

托马索：如果你去问OpenAI这样的机构里的顶尖研究人员，我相当确定，他们大概会说，我们并不需要理论。

保罗：听到他们这么说，你心里是什么感觉？

托马索：我想......大概已经习惯了吧。

保罗：以你的经历，完全可以说一句：“再过二十年你们就知道了”

托马索：是啊。不过你永远不知道历史会不会重演。

保罗：也是。

托马索：而且这次情况非常特殊，我们研究的对象本身就是“智能”。所以有时候我也会担心，也许理论真的会从此消失。

保罗：那不可能吧。

托马索：我的立场更像是很多年前布莱兹·帕斯卡（Blaise Pascal）提出的那个“赌注”，所谓的“帕斯卡赌注”。帕斯卡认为，从理性角度讲，更合理的选择是押注“上帝存在”，并据此行事。因为如果你押错了，假设上帝不存在，那损失有限；但如果你押的是“上帝不存在”，而事实上存在，那代价就是无限的，比如你将要永远下地狱。

保罗：不过帕斯卡赌的是“永恒”。而你有这么长一段成功的经历和成果积累，我想你大概会比帕斯卡更有底气一点吧。

托马索：是的。我主要的观点其实是：去赌一个超级智能会在短短三五年内接管我们，这毫无意义。更理性的赌注是，我们还有相当长的一段时间可以和机器合作，提升我们的智能，看看我们能一起做些什么。至于所谓的通用人工智能是否会“接管”，即便真的会发生，那也至少是很多年以后的事，甚至未必会发生。

保罗：我其实不太相信AGI是一个明确存在的东西，不过那是另一个话题了。倒是宣称AGI即将到来这件事，确实很赚钱。

托马索：是的。不过从经济角度看，这种叙事其实也有些风险。说实话，在我的职业生涯中，真正让我震惊的时刻，并不是ImageNet。2012年深度网络在ImageNet分类任务上的成功，当然非常重要，它们比之前的方法提升了大约20%，这已经是巨大的进步，但这种改进本身并没有让我特别惊讶。真正让我感到震撼的是2017年。后来我逐渐意识到Transformer模型，以及最终出现的ChatGPT，才是更大的突破。直到今天，我依然对大语言模型的能力感到惊叹。即便它们并不像我们人类那样思考，它们依然非常强大。

保罗：确实，它们强得惊人。

托马索：从图灵测试的标准来看，它们当然可以被称为“智能”。在人类历史上，这是第一次，我们不仅拥有自己的智能，还面对另一种智能形态。而且它们与我们不同。这对我们来说，是一个非常难得的机会，我们可以去研究：什么是共通的，什么是不同的。这有点像研究不同物种的基因组，比如果蝇（Drosophila）的基因组，或者秀丽隐杆线虫（C.elegans）的基因组。通过比较不同物种的基因，我们对自身基因的功能有了更深的理解。同样地，研究这些不同形态的智能，或许也能帮助我们更好地理解人类自己的智能。

保罗：刚看到大语言模型时，我的反应其实是：“哦，又一次技术进步而已。”以前大家也曾为循环神经网络兴奋过，也为LSTM兴奋过。而且几乎每一次，当一种新模型横空出世并带来巨大希望时，神经科学界总会有不少人说：“啊，现在大脑就是玻尔兹曼机。”或者“现在大脑是卷积神经网络。”如今又变成：“大脑就是大语言模型。”这到底是怎么回事？为什么我们这么容易就被带着跑？

托马索：早些年也有类似的“风潮”。那时甚至有人认为，大脑不过是一种流体力学系统。

保罗：这听起来可不太光彩。我自己就是神经科学家，这多少有点尴尬。每次新技术出来，我都会在心里想：“好吧，又来了。”结果却常常被打脸。有些突破确实让我始料未及，比如大语言模型，我当时真的是没预料到。

托马索：很多人一样，我也是等到ChatGPT出现之后，才真正意识到这种能力的强大。这是第一次能够和它自然对话。那一刻我才意识到，事情变得不一样了。

保罗：而且更有意思的是，我们几乎毫不费力就把它融入到日常生活了。至少对我来说是这样，我猜大多数人也是。它并不像一个完全陌生的技术，反而特别自然，好像一下子就嵌进了日常。我想，这本身就是它最令人震撼的地方之一。

托马索：而且在某种直觉层面上，我们也逐渐摸索出它能为我们做什么、能信任它到什么程度，以及如何更好地驾驭它。

保罗：不过在这方面，每个人的“使用能力”确实不一样。有些人会更天真一点，也更容易轻信。但如果把它当成工具来看，天哪，真的太厉害了。它作为工具的价值，简直惊人。

托马索：确实，非常了不起。

保罗：我刚才还在为自己、为神经科学家们感到尴尬，不过回到几分钟前的那个问题：到底是神经科学家更需要深度学习理论，还是搞机器学习的人更需要？神经科学家真的需要这个吗？

托马索：我认为需要。正如你刚才说的，把大脑简单地等同为一个Transformer模型，是没有意义的。

保罗：完全说不通。

托马索：如果我们能够理解Transformer所有的那些基本原则，那么这些原则本身，理论上也可能被大脑所采用，只是形式可能完全不同。当然，大脑并不一定真的在使用Transformer。但如果我们谈的是原则，而不是某种具体的工程实现，那么它完全可以通过一种截然不同的方式存在。比如，大脑是否也在某种意义上利用了“组合稀疏”的结构，或者是否存在类似自回归机制的过程。这样一来，我们至少可以提出一个更合理的问题：大脑是否运用了类似的原理？

保罗：抱歉打断一下。不过这有点像那个笑话：有人在路灯下找钥匙，因为“那儿有光”。我们会不会只是因为Transformer在那里发光，所以才从这个方向去理解大脑？那么，组合稀疏性在分析层级框架中属于哪一层？它不是一个具体算法，而是一种原则。那原则应该放在哪个层面？

托马索：这是个很有意思的问题。我想，它大概应该归入“学习理论”这一层。

保罗：那可是一个很大的范畴。

托马索：是的，确实很大。

保罗：关于理论的作用，你刚才提到，我们现在可能处在伏打和麦克斯韦之间的阶段。其中，你谈了电池发明之后涌现出的各种应用和创新，但没有谈麦克斯韦之后发生的事情。那是一个真正改变局面的时刻吗？我们真的需要麦克斯韦吗？如果没有那套理论，技术会不会照样发展？我们到底需不需要理论？

托马索：我觉得麦克斯韦之后发生的很多事情，正是因为麦克斯韦才成为可能。无线电、电视、雷达、互联网，以及制造电子元器件的能力，这些都离不开电磁学理论。当然，不只是麦克斯韦个人，而是整套电磁理论体系。理论让我们不仅能够理解电动机、发电机这些已经出现的技术，还能把它们优化、推广、系统化。更重要的是，它打开了全新的可能性，催生了后来的一系列技术革命。换句话说，理论不仅仅是解释已有成果，它本身也创造了新的空间。

流形还是组合？

不同理论的解释力与进化视角

保罗：咱们这话题其实已经跑偏又绕回来好几回了，不过还是得回到“组合稀疏性”上。在你最近发在arXiv上的那篇论文里，你把这个原则和其他一些替代原则做了对比。其中一个就是“流形学习”。现在在神经科学领域，关于“流形”的说法几乎无处不在。很多现象都被解释为存在某种低维流形结构。如果偏离这个流形，学习就会变得困难。

越接近原有流形结构，学习速度就越快，类似这样的观点。你能解释一下，“组合稀疏性”和“流形学习”之间的区别吗？为什么你更倾向于把前者视为一个更基础的原则？当然，也许我这样表述本身就不够准确。

托马索：是的。我认为这其实是同一种现象的两种不同视角。当你谈论函数的组合时，也可以把它理解为用更简单的片段逐步构造一个流形。就像视觉系统中那样，早期神经元先处理局部图像片段，然后这些局部片段被进一步组合，逐渐形成更复杂、更大尺度的视觉流形结构。我还没有系统地推导两者之间的严格数学关系，但直观上看，它们之间几乎存在一种一一对应的映射关系。

它们的区别更多体现在语言层面。正如我之前提到的，在经典数学中，人们谈论的是“结构”，例如流形。构造流形时，需要以某种平滑的方式把不同部分拼接起来。从本质上讲，这等价于在空间的不同区域定义不同的函数，并通过某种规则把它们组织在一起。这正是组合稀疏性的思想。我认为，两种说法在核心结构上是等价的。

保罗：那么组合稀疏性是否意味着，或者说是否要求，任意局部区域内都存在一个平滑的欧几里得空间结构，就像流形理论所要求的那样？

托马索：是的。在局部区域内，这个流形只依赖于高维空间中的一部分变量。而在其他区域，它可能依赖于另一部分变量，或者与前者部分重叠的变量。

保罗：既然你一直关注学习这个问题，你是否会把进化看作一种极其缓慢的学习过程？

托马索：这是一个很有意思的问题。确实有一些不错的尝试，把进化理解为一种学习过程。其中之一是莱斯利·瓦利安特（Leslie Valiant），他是一位杰出的计算机科学家，也是我的朋友。他曾写过一篇文章，把进化看作一种学习机制。从某种意义上说，它确实像你所说的，是一种更为缓慢的学习。不过，我认为事情可能比这更复杂一些。在学习过程中，你通常是在一个既定的解空间或假设空间中进行探索。人们常常称之为“假设空间”。也就是说，你事先限定了可能的函数集合，然后从中寻找最合适的那个。

在机器学习中，例如你选定了某种核方法，比如高斯核，那么你实际上就在一个特定的函数空间内搜索。训练的过程，就是在这个空间中找到最符合数据的函数。而进化的情况可能不同。它未必只是从一个固定的函数空间中进行搜索。它可能是在塑造不同的函数空间本身。换一种说法，在机器学习中，你通常已经确定了架构，然后在这个架构内通过训练解决具体问题。而进化所做的，可能是产生和筛选不同类型的架构。

保罗：也就是说，进化能够尝试的可能方案范围更广？

托马索：每一种架构所对应的搜索空间，其实都是不同的。

保罗：这是什么意思？

托马索：举个例子。假设在智能最早出现的时候，这当然只是推测，生物体只有非常简单的联结式反射。比如，一道闪光出现，就触发逃避反应。最初，这种反应大概是写在基因里的硬编码机制。后来，它可能逐渐变得更为灵活，会根据刺激强度或环境状态作出不同反应。但这种机制仍然是一种非常狭窄的解决方案。本质上，它就像一个单层网络。如果用神经网络的比喻来说，就是只有一层的结构。直到某个阶段，你发现可以使用多层结构。

这会扩大你能够表示的解决方案类型，也扩大可以学习的问题范围，但仍然不是全部。比如，在这种结构下，你可以进行类似监督学习的学习方式，但还无法像强化学习那样通过主动探索来发现策略。进化可能正是在不断“发现”或塑造这些更复杂的智能形式，或者说，不同的学习机制。换句话说，它不仅是在优化已有架构内的参数，而是在不断创造新的学习方式。

保罗：很有意思，这样理解也很合理。在最后几分钟，我们不妨再把视角拉回到更宏观的层面。刚才我把话题从你提到的“Brains,Minds,and Machines”项目带开了，听起来那是一个面向未来的计划。我现在更想问的是，你对未来的整体判断。你对接下来二十年的理论发展感到兴奋，或更多的是忐忑？同时，你认为当前这个领域真正的瓶颈是什么？我猜你的回答可能会是“学习理论”，但如果真是这样，是否还有更具体的层面值得指出？

托马索：毫无疑问，我对未来确实充满期待。当然，也难免会有一点担忧。

保罗：如果和三十年前相比，你现在的感受一样吗？你一直稳步推进自己的研究。如今是比过去更兴奋，还是更担忧？或是更从容？这是一个完全不同的阶段，还是说，你觉得这本来就是历史的自然进程？你见过各种潮起潮落，而未来也会继续向前发展。

托马索：我确实感到兴奋。当然，三十年前我也同样兴奋。但现在的赌注大多了。如今，经济的许多领域，以及科学研究的多个方向，都深度依赖机器学习。过去并非如此。正因为影响更广泛，我们更需要把方向走对，而且要真正做好。坦率地说，我从未想过，我们会在这场“智能竞赛”中走到今天这个阶段。

保罗：真的吗？这太令人惊讶了。

托马索：是的。我原本以为进展会更慢，也许到最后我想的是对的。但目前确实发生了明显的进展，尤其是大语言模型，这一点真的让我感到意外。它们为进一步探索提供了非常扎实的“落脚点”，尤其是在理论层面。同时，我也觉得，我们以及许多同行正在构建的理论体系，比十年前我所能预期的要丰富得多。当然，仍然有大量工作等待去完成。

保罗：那太好了。

托马索：这件事远没有那么简单。这并不是某种神经网络因为一两个偶然因素就“恰好成功”了。它背后有很多值得深入研究的方面，其中有些相当深刻。从研究一种在某些方面可能超越我们的人类智能这一点来看，我觉得就非常令人兴奋。不过，我一直认为，它的发展速度可能会比许多人想象的更慢。我记得大约十年前，在波多黎各的一次会议上，马克斯·泰格马克（Max Tegmark）和几位朋友组织了一场讨论。当时我们做了一个投票。大多数人预测，所谓的通用人工智能，或者超级智能，大概会在二十五年内出现。我当时给出的判断是五十年。

保罗：等等，这是多久以前的事？几年前吗？

托马索：十年前。

保罗：对那些乐观派来说，这数字已经挺大了，他们通常会说“接下来的5年、10年”。25年已经是个大数字了，但我喜欢你直接把它翻了个倍。

托马索：我当时估计的是五十年。现在的话，大概是四十年左右。我可能还是会坚持这个判断。当然，现在我觉得它也许会更快一些，但这取决于你如何定义“实现”。比如，自动驾驶就是一个很好的例子。我一直在密切关注这一领域。最初我自己参与过相关研究。后来通过我的好友阿姆农·沙舒阿（Amnon Shashua），他创办的公司Mobileye为特斯拉提供了第一套系统。自动驾驶已经“出现”了。在旧金山等城市，你可以乘坐自动驾驶出租车。但真正完全普及、随处可见的自动驾驶车辆仍然很少。而且，目前仍然做不到让一辆车在任何环境下都像人类一样自如驾驶。问题往往卡在那“最后的1%”可靠性上。恰恰是这最后1%，可能需要非常漫长的时间才能攻克。

保罗：这很有意思。人们一说“自动驾驶”，脑海里往往会自动浮现一个画面：问题已经彻底解决，自动驾驶汽车满街都是。但现实并不是这样。

托马索：确实如此。大概十年前，我在旧金山的Uber面试过一次，主要是出于兴趣。

保罗：出于兴趣去面试？

托马索：是的，我并没有真的打算加入他们。不过让我印象深刻的是，当时他们谈到自动驾驶时，语气仿佛2015年已经近在眼前，接下来六个月就会发生重大突破。

保罗：在那样的环境里工作，确实需要这种乐观精神，才能每天都有动力去推进。

托马索：大概是吧。

保罗：我算是X世代吧，可能是偏晚一点的那一批。我小时候用的是录像机那种模拟设备，也经历了电脑刚开始普及的年代。直接说重点吧。我有年幼的孩子，说实话，我很担心技术变化的速度。它变得越来越难以预测。

在过去靠马匹传递书信的时代，你大概还能比较准确地预测明年会发生什么。但现在，这些新工具会怎样影响他们，我根本无法想象，也不知道接下来会发生什么。一切都在加速。作为父亲，这种不确定感这让我感到相当不安。我知道你的孩子已经长大了。

托马索：我完全同意。当然，我也担心气候变化，但在某种意义上，我更担心人工智能与教育的问题。正如你所说，变化的速度太快，我们几乎跟不上。我们甚至不知道最好的教学方式应该是什么。你不可能禁止孩子使用ChatGPT。事实上，也许还应该鼓励他们去学会使用它。但与此同时，我们必须确保他们真正掌握数学等基础能力。

问题是，我们如何同时做到这两点？我已经在大学里看到这种困境。一方面允许使用ChatGPT，另一方面又要求学生说明何时使用、如何使用。因为我们当然不希望学生把所有的自主权都交出去，完全依赖ChatGPT，那会毁了我们的文化，毁了我们的社会。

保罗：问题在于，我们得去想办法应对它，找到解决方案。可等我们真正想清楚的时候，这个问题可能已经不复存在了，因为新的挑战又出现了。它会被下一个变化取代。我也说不好。

托马索：《百年孤独》的作者加夫列尔·加西亚·马尔克斯（García Márquez）曾说过，乘坐飞机旅行会打乱我们对世界的感知。他说，人应该像骑马或坐火车那样旅行，这样时间不会变化得太快。

否则你会被甩出去，就像经历时差一样。对教育来说，这是一场巨大的“时差反应”。

保罗：这个比喻真不错。我还记得《百年孤独》里的这句话，“世界像橙子一样是圆的”。

责任编辑：赵智华

文章来源：http://www.anfangnews.com/2026/0306/14237.shtml