首页 > 快讯 万字对谈MIT人工智能传奇人物Tomaso Poggio
万字对谈MIT人工智能传奇人物Tomaso Poggio
保罗:今天这位嘉宾的履历实在太过丰富,我恐怕难以在几句话中介绍清楚。他是托马索·波焦(Tomaso Poggio)。至于他的头衔,实在太多了。
他是麻省理工学院脑与认知科学系的Eugene McDermott讲席教授,麦戈文脑科学研究所研究员,麻省理工学院计算机科学与人工智能实验室(CSAIL)的成员。此外,他还分别是生物与计算学习中心以及脑、心智与机器中心两个研究中心的负责人。
托马索发表论文的年头,比我的年纪还要大,而我也早已不再是初出茅庐的毛头小子了。在谷歌学术上,他最早的一篇论文发表于1972年,刊登在Kybernetik上。论文题目是《时间记忆与视动反应的全息特性》(Holographic Aspects of Temporal Memory and Optomotor Responses)。
简而言之,他在这条路上已深耕多年。他究竟在探寻什么?答案是智能背后的理论基石。其中的关键词在于“理论”,托马索始终对智能背后的理论原则感兴趣。为此,他将人工智能与大脑的运作机制并置研究。
我们今天拥有非常出色的人工智能。这样的系统已经存在一段时间,从最初并不成熟,发展到如今性能惊人,并且仍在不断进步。但从根本上讲,我们依然没有看透它是如何运作的。人工智能的早期发展当然有理论基础作为起点。但近年来这波汹涌的AI浪潮,本质上是由工程实践驱动的,在于构建和扩展系统,而不是在深入理解其原理。
托马索用一个历史类比,来说明当前人工智能领域工程与理论之间的关系。他认为,我们现在的处境有点像当年伏打与麦克斯韦之间的那段时期。当年,亚历山德罗·伏打(Alessandro Volta)发明第一块电池之后,人类第一次获得了持续稳定的电源。随之而来的是大量应用的出现,人们开始利用电,并逐渐将其工程化。但那时,人们并不真正理解电的本质。直到多年以后,詹姆斯·麦克斯韦(James Clerk Maxwell)提出电磁方程组,系统建立起电磁学理论,人类才真正理解电磁现象的规律。正是这套理论,使后来一系列技术得以发展,包括计算机以及现代人工智能。在托马索看来,今天的人工智能,很可能正处在伏打与麦克斯韦之间的阶段。
在那个时期,从工程突破到理论成熟,中间经历了很多年。当然,当时的信息传播远比今天缓慢。正如托马索稍后提到的,那时消息主要靠马匹传递。但即便如此,从电池被发明,到相关应用逐步出现,再到人们真正理解电为何以及如何运作,这之间依然相隔多年。他认为,我们今天正处在类似的阶段。因此,他多年来孜孜不倦地钻研那些理论原则,试图以此照亮我们对智能运作机制的理解之路。
今天,我们会讨论他近年来一直在研究的一些理论原则。在他看来,如果想构建一个高效、可计算的函数系统,并让这些函数组合出一个能支撑智能行为的泛化计算体系,那么这些原则在理论上是非常重要的。
如果要给这些原则一个名称,其中一个则是“稀疏组合性”(sparse compositionality)。它的含义是,如果你希望高效地计算出某种智能行为,那么这个系统需要由许多相对简单的函数构成。这里的“简单”,指的是每一个函数本身只依赖于少量变量。当系统具备这样的结构,由多个低维函数组合而成时,从理论上说,它更有可能实现泛化。
这也解释了为什么深度神经网络需要“深度”才能发挥作用。它依赖于大量简单函数的重复与组合。这种结构听起来有些像大脑的新皮层。我们在对话中也讨论了,这些原则是否只适用于人工智能和深度学习,还是同样适用于我们的大脑。此外,对话中我们还谈到了他是如何发展出这些理论,以及他为何选择从理论角度理解智能的。
在这次对话中,我尤其享受于托马索分享他数十年来与不同领域杰出人物合作、研究有趣问题的经历,而且他至今仍在继续这样的工作。我们这次对谈,只谈到了托马索多年研究中的一小部分,从而了解到了他工作的一个侧面。下面,让我们正式开始。
学习:通向智能理论的真正入口
保罗:大多数科学家在科研生涯中都会经历乐观与悲观的起伏,尤其是在早期阶段。也许那正是关键所在,我也说不太准。这种起伏既体现在对自己研究进展的判断上,也体现在对整个领域前景的看法上。
举个例子,当年你和大卫·马尔(David Marr)提出分析层级框架,后来又把“学习”加入为第四个层级。我想,当时你应该是乐观的,觉得这会真正开启一个新的维度,也可能会加快研究进展。如果大家意识到,学习才是需要关注的重点,或许整个领域都会因此受益。而且,从你的研究轨迹和做事方式来看,,你似乎是一个无论境遇如何,都能稳步向前的人。你是个例外吗?还是说,在这方面你也和常人无异,同样会经历这种起伏?
托马索:我也会经历那种起伏。有些起伏很大,可能持续几个月,甚至几年。也有小的,日常的波动,就像是今天乐观,明天又悲观的表现。“我能证明这个定理,我已经证明了。”然后又发现,“不对,我错了。”诸如此类。
至于把“学习”作为第四个层级加入框架,那是后来回顾时的说法。其实在很多年之前,我已经意识到了学习的重要性。
我第一篇关于机器学习的论文,大概是在1981年左右,讨论的是非线性学习。不过当时我决定先去研究其他问题,比如人类视觉、立体视觉,我们如何看到三维世界。在真正回到学习这个主题之前,大约花了十年时间做这些研究。可以说,关于学习的研究我是晚了一些才重新展开的。
保罗:是因为学习这个问题更难,还是因为那些其他的问题更有吸引力呢?
托马索:主要是那些问题更容易下手,而学习确实更具挑战性、更难一些。而且我一直有一种偏好,也许是错误的偏好。回头看,我总希望在做应用或演示之前,先在理论层面理解一种新方法。这更多是一种研究取向的差异,有些人倾向于先尝试,如果有效,再去发展理论,或者干脆不发展理论。比如杰弗里·辛顿(Geoffrey Hinton)就更偏向那种做法,而我恰好相反。
有时候,这种理论优先的做法可能限制了我原本可以更早尝试的事情,但没办法,这就是我的思考方式。直到1990年,我建立起一个机器学习的理论框架之后,才开始把学习方法应用到各种问题上,比如计算机视觉、计算机图形学、基因芯片中的癌症检测、文本分类、自动驾驶,几乎涵盖了今天人们仍在研究的许多方向。当时使用的主要是浅层网络,比如径向基函数网络和核方法,这些90年代的技术。
保罗:那时候计算资源有限,网络规模也更小,所以实现起来更困难。但从某种意义上说,那些方法反而更有理论基础,是吗?
托马索:是的。1990年,我和一位出色的合作者费德里科·吉罗西(Federico Girosi)一起写了一篇论文,讨论了这种浅层网络的理论。那实际上是一套关于“核机器”(kernel machines)的理论,只是当时这个术语还没有被正式使用。在有了这套理论之后,我才开始把学习方法应用到遗传学、视觉、图形学等问题上。
保罗:也就是说,在有了理论之后,你才觉得可以自由地去做那些应用。
托马索:是的。
保罗:我明白,这是你的风格。
托马索:没错。从某种意义上说,我对此有些遗憾。也许后来我学到的一点教训,和伏打的故事有关。
这只是一个比喻,不必过于字面理解。正如那句话所说,历史不会简单重复,但有时会以相似的方式出现。伏打与电学的这个类比,本身就值得思考。很多人或许没有意识到,在1800年之前,也就是两百多年前,当时正值拿破仑时代,信息传播的速度基本上就是马匹的速度。
在那之前,人类历史上信息传播从未比马更快。有一些有趣的历史书信,记录了人们得知君士坦丁堡陷落时的反应。这在当时的基督教世界是一件重要事件,大约发生在1453年。人们在巴黎、维也纳之间互相通信。在巴黎,有人写信问:“你听说了吗?君士坦丁堡被土耳其人攻陷了。”在马德里,也有类似的书信。那时,我们甚至可以追踪信息传播所花费的时间:传到维也纳用了三周,到巴黎用了四周,到马德里用了五周。花费的时间,差不多就是一匹马连续奔跑所需的时间。
保罗:前提是天气还得不错。
托马索:是的,前提是天气好。1800年,伏打的时代,也是拿破仑的时代。在那之前,人们对电的认识基本上只停留在闪电这样的自然现象上。直到伏打发明了第一种能够持续产生电流的装置,科学家第一次可以在实验室里系统地研究电现象。随之而来的是一连串发现,几乎可以说是一场科学的“雪崩”。接下来的十五到二十年里,电化学迅速发展。随后,人们陆续提出了电学的一系列基本定律,比如欧姆定律、安培的电磁理论,法拉第发明了发电机和电动机,厄斯特揭示了电与磁之间的联系。所有这些成果,最终在1864年达到高潮。那一年,麦克斯韦提出了著名的四个电磁方程,系统地建立起电磁学理论。
保罗:是的,他建立了一整套理论。
托马索:这可是花了整整六十年。
保罗:而且还是按“马车时代”的速度算的。
托马索:是的,不过那依然是很长的一段时间。在那六十年里,在麦克斯韦出现之前,人们其实并不知道电究竟是什么。但这并没有妨碍电动机、发电机等重要应用的发展。这正是我想说的启示。在人工智能领域,我们今天很可能也正处在伏打与麦克斯韦之间的某个阶段。只是,我们究竟走到哪一步了,很难判断。
保罗:是的,我们现在可比马跑得快多了。我听你讲过这个类比。不过我也听你在别的场合提到过另一种可能:也许人工智能并不需要自己的“麦克斯韦”,也许并不一定需要一套统一理论。可你自己又在努力推动理论的发展。这两种说法怎么协调?我很难想象你真的相信“不需要理论”。你这么说,是不是在承认某种你自己都不信的可能性?
托马索:是的。某种程度上,我确实承认了一种自己并不真正相信的可能性。不过,我还是希望我们需要理论,而且最终也会有理论。至于它会有多完整,我不知道。但我几乎可以肯定,它不会像麦克斯韦那样,用四个方程就统一一切。它更可能是一组关于“智能的基本原则”。
就像分子生物学那样。我们并没有几条简单的方程来解释生命,但我们有一些根本性的原则。比如DNA的双螺旋结构如何复制和传递生物信息。这本身就是一个极其优雅的原理。我想,关于智能的理论可能也会类似。它们是基础性原则,但未必会像电磁学那样,形成一套高度封闭、完整的数学体系。这是我的期待。当然,也始终存在另一种可能:也许机器学习系统、大型语言模型,或者它们的继任者,会自己发展出某种理论,而我们却未必能够理解它。
保罗:你刚才提到“原则”,这一点很有意思。我最近和一位神经生理学家亚历克斯·迈耶(Alex Meyer)聊过。他最近对“整合信息理论”(Integrated Information Theory)非常着迷,认为它可能解释意识。他之所以着迷,是因为这套理论有一整套严格的数学形式。它似乎让人看到一种可能,也许我们可以为意识建立数学定律。而这种形式化的表达,往往会让科学家特别有满足感。
当然,进化论、分子生物学、DNA双螺旋,这些都是重要的原则,但它们不像自然定律那样有精确的数学表达。某种程度上,我们这些科学家似乎只有在把现象写成数学关系时,才真正感到安心。我本来想说“简化”,但也许更准确的词是“形式化”。那么,你在研究学习理论和机器学习理论时,追求的也是这种形式化的原则吗?
托马索:我想是的。我追求的确实是原则,而且是具有数学结构的原则。
保罗:我们接下来要谈的“稀疏性”和“组合性”,本质上也是原则。但要对它们作出具体而严谨的陈述,就必须通过定理来证明。而这正是你一直在做的事情。
那这和“形式化的数学定律”有什么区别?它们算是原则,还是定律?
托马索:像“稀疏组合性”(sparse compositionality)这样的原则,是一个很有意思的例子,我们稍后可以详细讨论。我们可以证明,如果一个函数,或者完成某项任务的能力,是由图灵机在非指数时间内可计算的,那么它必然具有组合稀疏的结构。这是可以严格证明的。这意味着,任何运行在计算机上的系统,比如ChatGPT,都必然是组合稀疏的,因为它们本质上是在图灵机上实现的。但这并不意味着,人脑所做的一切也都是组合稀疏的。因为我们并不知道,大脑的全部能力是否都可以被机器完全复现。大多数人相信可以,不过——
保罗:我明白,这是你的风格。你自己呢?
托马索:我并不完全相信。这个问题我们可以稍后再谈。这里还有一个关键点。所谓“可计算”,并不是指在理论上可以算出来,而是指“高效可计算”。也就是说,它必须能够在合理时间内算完,而不是说要算上个宇宙年龄那么久,对吧?
所谓“合理时间”。换个说法,有些物理过程,比如混沌系统,例如天气的形成和演化,很可能并不是“高效图灵可计算”的。原因在于,如果你想在未来保持一个固定的预测窗口,也就是说,希望预测的时间范围不随着时间推进而缩短,那么你就必须以指数级的方式提高对初始条件的测量精度。从理论上讲,它当然是可计算的。但它并不是“高效图灵可计算”的。这里存在一个所谓的“可预测窗口”。顺便说一句,这也许和意识的问题有关。也许意识本身并不是图灵可计算的,就像我们无法以任意精度预测三天后的天气一样。
保罗:我几乎无法想象意识是图灵可计算的。亚历克斯·迈耶有一个观点。他希望在某种数学结构与“现象意识”的属性之间建立一种同构关系,比如主观体验,也就是所谓的“感质”(qualia)。他刻意把意识和认知区分开来。因为认知可以被理解为函数。人工智能做的事情、神经网络实现的计算,本质上都是函数映射。但“同构”与“函数”是两种完全不同的概念。这之间有很大的差别。
托马索:是的。在我看来,你有一类函数,它们本质上是可组合的,也能被计算机计算;而另一类函数则太复杂了,没办法在合理的时间内算出来。
保罗:学习本身也是一种函数。自从你把“学习”作为第四个分析层级提出之后,它是不是就成了你长期关注的核心问题?你几乎一直在研究它。我真正想问的是,这些年你对“学习”的看法有没有发生变化?有没有哪些你过去深信不疑、现在却不再认同的观点?还是说,你的思路一直都是稳步推进,并没有大的转折?
托马索:我一直认为,学习是真正通向智能的大门。改变的,其实不是我对学习重要性的看法,而是计算机科学界对它的态度。很长一段时间,我一直在对计算机系的同事们说,学习至关重要。但大概是在2010年左右,他们才开始认真听我说,至少在麻省理工学院是这样。
保罗:他们为什么不愿意接受?当时的症结在哪里?
托马索:这个问题很有意思。其实,如果从历史上看,这种情况是有有迹可循的。自1950年代左右计算机科学形成以来,这个领域的基本研究范式一直是“编程”。
保罗:算法,以算法为核心的编程。
托马索:对。你告诉计算机该做什么。哪怕任务再复杂,本质上也是由人来写程序、给出明确的指令。研究者的职责,就是写出一个足够聪明的程序。这种模式大概一直持续到2000年前后,甚至2010年左右。但如果看看今天的计算机科学,它已经完全变了。几乎所有方向都围绕机器学习展开。过去,编译器、程序语言、机器人、计算机视觉、自然语言处理,这些都是彼此独立的领域,各自为政。现在几乎都被机器学习统一了。早在1990年左右,我就说过,机器学习会成为计算机科学的“通用语言”。只是,这个转变确实花了很长时间。
我记得在1980年代,我们在麻省理工学院已在使用电子邮件。那时我还担任一家很有意思的小公司的顾问,这家公司叫“思维机器公司”(Thinking Machines)。他们开发了一种叫“连接机器”(Connection Machine)的超级计算机,内部有一百万个非常简单的处理单元。当时我是他们的企业研究员。另一位企业研究员是理查德·费曼(Richard Feynman)。
保罗:你的老朋友吗?
托马索:对,还有史蒂芬·沃尔夫勒姆(Stephen Wolfram)也是。
当时公司里还有几位同样很有意思的人。那时候,在我看来,电子邮件显然是未来的发展方向。但人们又过了整整15年才真正停用传真机。
保罗:上个月我还被迫发了次传真,我完全搞不懂为什么还要用这玩意儿。
托马索:当时我基本都放弃电子邮件会普及的希望了,结果它当然还是来了。
保罗:到那时,你可能已经开始用Slack*之类的工具了吧。神经网络其实一直都在。PDP学派,也就是“并行分布式处理”那一批研究者,多年来一直在强调学习的重要性。问题在于多层网络的训练,尤其是反向传播算法(backpropagation),曾经被认为太慢、效率不高。当然,情况在2012年发生了改变。那一年,在ImageNet数据集上的突破显著降低了错误率。所以,并不是神经网络不存在,而是它们真正发挥威力,经历了一个漫长的过程。
*译者注:Slack是一种企业内部即时通讯与协作工具,在科技公司和研究团队中被广泛使用。
托马索:神经网络确实一直存在。但我当时是个怀疑者。从某种意义上说,我错了。
保罗:错在哪儿?
托马索:在神经网络的问题上。我当时主要使用的是浅层神经网络,而不是深度网络。因为在2008年,甚至2010年之前,浅层网络的表现其实并不比深度网络差。这牵涉到另一个话题,就是技术如何影响思想。我们常常以为,是理论和算法推动了技术的发展。但很多时候,恰恰是当下的技术条件决定了我们能做什么。什么是可行的,什么是容易实现的,什么又太困难。这些都会在很大程度上影响我们提出什么样的理论,以及采用什么样的算法。
保罗:是的,杨立昆也曾强调过这一点。历史上这样的例子太多了。
托马索:没错。我记得大约在1999年左右,我坐过一辆梅赛德斯在德国斯图加特测试的自动驾驶汽车。
保罗:真的假的?
托马索:是的。那辆车当时可以在斯图加特市中心狭窄的街道上自动行驶。当然,驾驶座上还是有一位司机,双手几乎贴着方向盘,以防万一。后备箱里塞满了计算机设备。我记得,当时有一场为期三天的自动驾驶研讨会,只邀请相关人员参加。最后半天出席的是律师。研讨会结束时,戴姆勒·奔驰的管理层就拍板了:“不搞自动驾驶了,砍掉这个项目。”
保罗:我刚想说两件事。第一,我敢打赌,那辆车的计算系统里肯定没用上福岛邦彦(Kunihiko Fukushima)的“新认知机”模型。
托马索:怎么会?不,其实用到了,因为我们当时做的基本上就是类似的东西。比如,我们训练了一个行人检测系统。当时只用了大约200个样本。以今天的标准来看,这几乎难以想象。从科学研究的角度讲,那个系统表现得相当不错。但从实际应用的角度看,它每十秒钟大约会出现三次错误。虽然按帧数计算,错误率其实并不算高,远远不到每一帧都出错。但在真实驾驶环境中,这样的错误频率显然是不可接受的。无论如何,它都还谈不上真正可用。
保罗:托马索,交个底吧,那天你们到底“撞”了多少人?
托马索:没有撞到真正的人啦。
保罗:我还以为你会说,最后他们承诺“五年内就能实现自动驾驶”,因为科技圈的承诺永远都是“再过五年”。结果你却说他们直接说“不搞了”,看来律师确实起了作用。
托马索:总之,戴姆勒公司内部终止了这个项目。其实挺可惜的,当时他们确实走在最前沿。只是时机太早了。
保罗:你刚才说那辆车,是在1999年左右?
托马索:差不多吧。也许是1997年左右。
保罗:我读过你的自传。当然,在那之前我也已经了解了你很多研究工作。你在书里提到,自己在1980年代初期就开始做目标识别的研究,也就是在当时的场景里,检测行人或物体。这显然和神经网络中的学习问题密切相关。你当时曾怀疑,休伯尔(David Hubel)和维泽尔(Torsten Wiesel)提出的“简单细胞”和“复杂细胞”模型,是否真的能够通过层级组合构成对物体的表征。后来你承认自己错了,并发展出HMAX模型,也就是基于层级结构的目标识别系统。那段时间,你是怎么理解“学习”这个问题的?
托马索:在那个时候,我们所谓的“学习”,其实只发生在最后一层。前面的层级结构负责做特征处理,但这些特征并不是通过复杂的学习得到的,而是用一种很简单的方式构建出来。比如,从图像里随机取一些局部片段作为特征。真正的学习,主要是训练分类器的权重,也就是网络最后一层的参数。
保罗:明白了。
托马索:原因在于,我当时真的不相信“反向传播”在生物学上是合理的。
保罗:你这个怀疑是有道理的。
托马索:从某种意义上说,我当时是对的。但在机器学习的实践层面,我又是错的。我当时是被这个“生物学约束”给绊住了。现在,我们开始有一些新的想法。从神经科学的角度看,这些模型似乎更合理。当然,我不知道它们是不是对的,这还需要实验来检验。但至少,是有可能的。
它未必是严格意义上的反向传播。更像是一种更一般形式的梯度下降。而这种机制,也许可以通过神经元连接的自组织方式自然实现。听起来有点神奇,但未必真的那么神奇。我觉得,这是神经科学里一个非常关键的问题。因为如果我们真的能在大脑里找到某种与反向传播等价的机制,那神经科学和机器学习之间就会建立起一种非常深的联系。到那时,我们就可以看着具体的神经回路、突触结构,说:“哦,这里正在发生这样的计算。”
保罗:这算是个题外话,我稍微跳一下话题。你刚才提到自己在做一些自组织、具备生物可行性的可塑性网络模型。其实这些年也有不少研究在尝试提出“生物学版本”的学习机制,希望在功能上复现反向传播。已经有好几种概念验证方案了,只是它们在多大程度上真正模拟了反向传播,效果各有不同。
我最近读了你的一篇论文,里面几乎全是深度学习理论的术语。我心里在想,“天哪,我也算懂一点,比如流形之类的概念,可一旦进入那些技术细节,就有点跟不上了。”你显然已经完全沉浸在那个世界里。所以我很好奇,你平时思考问题时,更多是在机器学习的框架里思考,还是在生物学习的框架里思考?如果这两者可以区分的话,你的大脑大概是怎么分配的?
托马索:很长一段时间里,大概是五五开。但在过去五年左右,我可能稍微更偏向人工神经网络这一侧。
保罗:是因为那里的数据更充足,更方便做验证吗?
托马索:也不完全是,不单纯因为数据。更主要的原因是,我一直被一个问题困扰:我们到底需不需要一套真正的理论?这两三年来,我越来越觉得,自己可能抓到了一些原则。当然,我并不认为它们是最终答案,更谈不上是最关键的原则。但至少,它们看起来像是理解人工机器学习系统时绕不开的一部分。
为什么浅层理论不够?
深度与组合结构的必要性
保罗:那我们现在就来谈谈这些吧。“稀疏组合性”是你目前关注的核心原则吗?
托马索:它是其中之一。对我来说,它确实解决了一个长期困扰我的问题。正如我之前提到的,我总是需要对正在发生的事情至少有一个理论上的轮廓性的理解。大约在2003年左右,我和一位非常著名的数学家史蒂芬·斯梅尔(Stephen Smale)一起,为美国数学学会写了一篇关于机器学习的综述文章。在那篇文章中,我们比较系统、也相当完整地梳理了浅层网络、核机器等模型的理论基础。
当时在讨论部分,我专门写了几段文字,谈到一个让我始终想不通的难题。按照当时的理论框架,浅层网络已经足够表达我们关心的函数,并不需要多层深度结构。可是从生理学角度看,例如视觉皮层的结构,却明显是多层级组织,而且这些层级似乎具有功能上的重要性。于是问题就出现了。既然浅层理论已经足够,为什么大脑却是分层的。深度到底有什么必要性。这个问题让我卡了很久。在真正愿意去接受并应用深度网络之前,我始终没有想明白这一点。后来我逐渐意识到,“稀疏组合性”很可能正是这个谜题的答案,同时也解释了其他类似的问题。
保罗:我可以想象两种路径。一种是,你先训练深度网络,然后去观察它们的内部表征,从这些表征中总结出某些结构性的规律。另一种是,你从一个更偏理论、更强调原则的角度出发,先思考哪些结构特征在原理上应该是重要的。你的想法是怎么形成的?
托马索:更接近第二种方式。这个想法最初其实是为了回答另一个相关的问题,那就是,为什么卷积神经网络似乎明显优于全连接网络。在卷积网络中,就像视觉皮层一样,每个神经单元只接收一小部分输入,而不是连接到所有输入。举个简单的例子。假设你有大量感光受体,也就是视网膜上的光感受器。第一层中的每一个单元,只会“看到”其中一个很小的局部区域,而不是整个输入图像。
保罗:也就是一个小的局部区域。
托马索:对,就是局部区域。于是我开始思考这样一个问题。假设我们有一个多变量函数。为了简单起见,我们设它有八个输入变量,记作X1、X2、一直到X8。现在再设想,这个函数并不是一个“整体式”的函数,而是具有某种层级结构。也就是说,它是“函数的函数的函数”。例如,我们先定义一个关于X1和X2的函数。再定义另一个关于X3和X4的函数。接着,再定义一个函数,把前面两个函数的输出作为输入。依此类推。从结构上看,它就像一棵二叉树。最底层是八个输入节点,而每一个上层节点,都是由两个变量,或者两个子函数的输出,组合而成。
这个结构,可以看作是卷积神经网络的一种“玩具模型”。这里卷积本身并不是关键。所谓卷积,就是权重在平移下保持不变。但真正重要的,是这种“局部组合”的结构。如果我们考虑一个普通的八变量函数,在一般情况下,就会遇到所谓的“维度灾难”(curse of dimensionality)。换句话说,为了逼近这样一个函数,你所需要的参数数量,往往会随着变量数量呈指数级增长。而指数级增长,在计算上是灾难性的。
保罗:如果这些变量彼此独立,没有高度相关性,那就是最糟糕的情况。
托马索:没错。函数的平滑性在某种程度上可以缓解这个问题,但根本的困难还是会出现。举个例子,如果我们有一个包含一千个变量的函数(其实这并不算多),一张32×32的小图像就大约有一千个像素。现在设想,我们要逼近一个关于这1000个像素的函数,并允许大约10%的逼近误差。在一般情况下,你可能需要大约101000个参数。这是一个极其巨大的数字。作为对比,宇宙中质子的总数大约是1080。
保罗:我就知道你会用电子或者质子的数量来做类比。一旦参数数量超过宇宙中质子的总数,那肯定不是个好兆头。
托马索:但如果这个函数具有我刚才说的那种结构,也就是“函数的函数”的层级结构,情况就完全不同。我们最初称之为“层级局部性”,现在更准确的术语是“稀疏”。所谓“组合稀疏”,是指整个函数是由多个子函数组合而成,而每一个子函数只依赖于少量变量。
保罗:这里的“稀疏”是一个精确定义的概念吗?还是只是一个方向性的说法?比如,稀疏是不是意味着变量少于三个?还是说只是相对而言比较少?
托马索:它首先是一个方向性的概念。不过考虑到指数级复杂度带来的后果,我会给出一个数量级上的判断。比如在二值变量的情况下,“稀疏”大致意味着每个子函数所涉及的变量数量少于40个。
保罗:明白了。
托马索:如果是非二值变量,那么这个数量级大概在14个左右。
保罗:那这显然是非常稀疏了。
托马索:是的。
保罗:那么,“稀疏”是一方面。你刚才说“函数的函数”,那既是“组合”的含义,也是“层级”的含义。你能区分一下“层级性”和“组合性”吗?
托马索:严格来说,两者并没有实质差别。我认为它们只是不同的说法。我更喜欢“组合”这个词,因为我们讨论的是函数的组合,也就是函数的函数的函数。这个概念在很多领域都会出现,比如语言学中的“组合性”。意思是,我们可以用简单的基本单元,构建出更大的结构、更丰富的意义。诺姆·乔姆斯基强调过这一点。赫尔曼·冯·亥姆霍兹(也曾指出,语言的力量在于能够用有限的简单元素生成无限复杂的表达。但更有意思的是,这种能力并不只属于语言。它实际上是所有能够被高效计算的函数所共有的一个性质。
保罗:也就是说,这是必然的。
托马索:是的,必然如此。
保罗:那么,这里的瓶颈究竟在哪里?关键点是什么?关键在于函数本身吗?如果从进化的角度来想,进化是如何“找到”那些能够在这种稀疏组合结构中高效协作的函数的?听起来这像是一个非常精细、甚至有些脆弱的系统,但我们知道大脑其实是高度稳健的。是否问题的关键在于,你必须选对那些函数?而且无论如何,这些函数仍然需要通过学习获得。
托马索:这个问题非常有意思。我不确定这算是一种冲突,还是说是一条分界线,但它确实揭示了经典数学和计算机科学之间的一种差异。在经典数学中,我们通常是先定义一个函数空间。这个空间具有某些性质,比如不同形式的平滑性,或者满足若干阶导数存在等条件。函数是在这样的抽象空间里被研究的。而在计算机科学中,思路完全不同。计算机科学里,每一个函数都是由少量基本原语构造出来的。你从“与”、“或”、“非”这些最基本的逻辑操作开始,然后通过不断组合,构建出越来越复杂的函数。在这里,“组合”本身就是一种基本操作。因此,对计算机科学家来说,组合性并不是某种偶然的演化结果,而是所有能够被计算的函数必然具有的结构特征。
保罗:明白了。
托马索:对数学家来说,这个观点会更难接受,这并不是他们熟悉的那套思维方式。
保罗:我差点忘了,我们现在是在计算机科学的地盘。一切最终都要回到布尔逻辑,对吧?
托马索:是的。事实上,在我为一个包含28篇文章的理论文集撰写的论文中,有一篇就专门讨论一个问题:“实数是否真的存在?”这并不是一个玩笑式的问题。因为一旦我们谈到图灵可计算性,原则上讲,任何一个数最终都必须被表示为布尔变量,也就是0和1的有限或无限序列。哪怕这个序列非常非常长,本质上它仍然是由布尔值构成的。
从计算机科学的角度来看,实数并不是一个真正“存在”的对象。如果你去看看数学的基础,支撑实数的“连续统假设”,对于基础数学来说也并不是非有不可的。即便放弃完整的实数连续统,我们在很多基础数学结构中也不会损失太多。当然,有些实数是可计算的,比如π或e。但还有大量实数是不可计算的。从某种意义上说,那些不可计算的实数更像诗歌。它们在概念上是存在的,却无法被真正写出来、算出来,或在计算机中实现。
保罗:换句话说,毫无用处。
托马索:在计算意义上,毫无用处。你没法拿它们做实验,什么都干不了。
保罗:好吧,我们刚才讲到哪里了?我们有一组稀疏的组合结构。那么,你究竟证明了什么?
托马索:我们证明的是这样一个命题:任何“高效可计算”的函数,也就是说,能够在非指数时间内由图灵机计算完成的函数,在结构上必然具有组合稀疏性。换句话说,这样的函数一定可以被分解为若干子函数的组合,而每一个子函数只依赖于少量变量。也就是说,每一层都是“稀疏”的。而且,这种分解方式并不是唯一的。对于同一个函数,往往存在许多不同的分解结构。如果把这种分解推到极端,你可以得到一个非常深的层级结构,由最简单、最基础的函数逐层组合而成。最终,这些最基本的操作可以还原为布尔逻辑中的“与”、“或”、“非”。从理论上讲,任何图灵机程序,都可以在数学上等价地转化为一个布尔函数。因此,只要一个函数是高效图灵可计算的,它就必然可以表示为由若干低维、稀疏子函数组成的层级结构。
保罗:那么,从学习的角度来看,如果一个函数确实具有这种由稀疏子函数构成的层级结构,那么学习这些基本的布尔运算及其组合方式,在理论上就不会带来指数级的计算负担,对吗?
托马索:是的。关键在于,如果我能够获得每一个子函数的输入与输出数据,那么每一个子函数本身都是容易学习的。可以用一个多层神经网络来类比。通常,我们只有整个网络的输入,以及整个网络最终的输出。只凭这两端的数据进行训练,确实可能很困难。但如果我能够获得中间层的数据,也就是说,我不仅知道整体输入和整体输出,还知道每一层的输入与输出,那么每一层都可以被单独、高效地学习。既然每一个子函数都容易学会,那最终组合起来的整体函数,自然也就学会了。
这也是Transformer模型之所以有效的原因之一。它的“魔力”在于采用了自回归训练框架。模型不是被要求读完整本书,然后只预测最后一个字、最后一个词,或者最后一句话。它的训练方式是这样的:给定前面的词,预测下一个词。然后把预测得到的结果加入上下文,再继续预测下一个词。换句话说,它不断在学习局部的子任务。每一步,其实都类似于在学习一个小规模的子函数。
保罗:明白了。
托马索:这样一来,我就可以预测下一个词,再把新生成的词加入到当前序列中,继续预测下一个词,如此循环。
保罗:也就是说,你预测出来的那个词,会被纳入新的上下文,然后再用它去预测接下来的词?
托马索:正是如此。
从维度灾难到可泛化:
为什么“少参数”意味着“能泛化”
保罗:我们还是回到机器学习本身。来谈谈泛化能力吧。我知道你很关心这个问题。既然深度网络的优势在于能够表达这种“稀疏组合”的结构,那么这种结构对泛化能力意味着什么?
现在的大多数机器学习任务都非常“狭窄”。而且还有一个著名的难题,叫做“持续学习”。模型在某个任务上训练完成后,一旦转向新的任务,往往不得不重新学习,甚至会遗忘之前掌握的知识。真正难得的是“泛化能力”。那才是人工智能追求的目标,是彩虹尽头的那一罐金子,是所有人都想找到的宝藏。那么,这种稀疏的组合结构,究竟如何帮助我们理解泛化?它和泛化能力之间到底有什么内在联系?
托马索:这种结构,对整个机器学习框架都至关重要。当前主流的机器学习范式,大致可以这样描述。假设我面对的是一个未知函数。以ImageNet为例。我希望完成图像分类任务,一共有1000个类别。我需要一个函数,把一张200×200的图像映射到1000个类别中的某一个。也就是说,把大约4万个输入变量映射到一个类别标签上。但问题在于,我并不知道这个函数的真实形式。我手里只有训练数据,也就是输入图像,以及对应的正确类别标签。训练集中包含大量这样的样本对。我的任务,就是根据这些样本去逼近那个未知函数。
在这个框架下,我需要使用一个足够强大的通用工具,来逼近这个未知函数。“稀疏组合性”这一原则告诉我们,你应该用的通用工具就是深度网络。之所以强调“深度”,是因为只要一个函数是可计算的,它就可以表示为若干子函数的组合。深度结构正是这种组合形式的自然表达。这是数学上的结论,也是理论的核心信息。理论还给出了一个重要的保证。假设你拥有一个多层网络,并且能够成功完成优化,那么你的任务就是调节网络中的参数。可以把这些参数想象成许多旋钮,比如十万个旋钮。你需要不断调整这些旋钮,使网络在训练集上的输出尽可能逼近那个未知函数。换句话说,你要调节参数,让网络在训练数据上实现正确分类。
保罗:弗兰克·罗森布拉特(Frank Rosenblatt)当年确实是用手去拧那些旋钮的,不过我明白你说的是现代意义上的“调参数”。
托马索:是的。理论告诉我们,你不需要无穷多、也不需要指数级数量的“旋钮”。如果函数具有稀疏组合结构,那么所需的参数数量就不会呈指数增长,而是控制在一个非指数级的规模内。这个结论非常重要。它不仅意味着我们能够有效地逼近复杂函数,更关键的是,它为泛化能力提供了保证。本质上,这里存在一种权衡关系。背后当然是数学推导,但直观地讲,如果一个函数可以用相对较少的参数来表示,那么模型不仅能够拟合训练数据,还更有可能在未见过的数据上表现良好,也就是实现泛化。
如果你使用一种需要极其庞大甚至无限参数数量的方法,就会面临两个问题。第一,你在计算上根本无法处理例如101000这样规模的参数。第二,你将无法实现泛化。你只是简单地拟合了训练数据。
保罗:也就是说,如果模型参数过多,本质上就会发生过拟合。
托马索:没错。不过这个问题比较微妙,需要更深入地讨论“过参数化”究竟意味着什么。因为今天的神经网络确实是过参数化的,它们的参数数量往往超过训练数据的样本数量。但关键在于,如果没有“稀疏组合性”带来的理论保证,所需的参数数量会大得多。那样的话,几乎不可能实现我们现在所看到的这种效果。
保罗:我明白了。刚刚我突然想到一个类比。是不是可以把这种函数结构看作处在两个极端之间?一端是传统的符号人工智能。那里有清晰分离的模块,各自执行特定功能,并彼此通信。另一端则是极其底层的实现方式。每一个神经元就像一个简单的逻辑门,执行非常基础的操作,而整个系统的能力来自于这些简单单元的大规模组合。从某种意义上说,这些结构是不是可以理解为一簇簇布尔函数节点的组合,只是它们以更加连续、分布式的方式组织起来。我这样理解对吗?
托马索:可以这样理解。或许最清晰的方式,是回到那棵二叉树的类比。最底层是输入节点,最顶端是一个输出节点。随着结构向上延伸,宽度逐层减少。这有点像视觉皮层的第一层神经元,每个神经元只关注图像中的一个局部区域。接着,在上一层的神经元中,每个单元会接收并整合第一层神经元的输出。
保罗:上一层的单元数量会减少一半,对吗?
托马索:是的。
保罗:也就是说,上层的维度比下层更低?
托马索:正是如此。这个过程可以不断向上推进。每一层神经元读取下层神经元的输出,并将整合后的信息传递到更高层。随着层级上升,单个神经元的感受野会越来越大。这与视觉皮层的组织方式高度相似。在V1区域,神经元的感受野非常小。到了V2和V4,感受野逐渐扩大。而在IT区域,神经元可以整合更大范围的视觉信息。
从AI到大脑:
组合性是否存在于真实神经系统?
保罗:你说“大致相似”,我也觉得只能说是“大致”。不过我还想问,你认为这个理论结果在理解真实的大脑时到底有多大意义?它真的适用于生物大脑吗?
托马索:首先,我并不确定。这是一个开放的问题。
保罗:但我知道你很在意这个问题。
托马索:我当然关心这个问题。我的意思是,从数学角度来说,我可以非常确定地告诉你,像ChatGPT这样的系统,以及所有运行在计算机上的类似系统,都必须具备“稀疏组合性”。凡是能够在计算机上高效运行的系统,都必然具有这种结构。这一点几乎是逻辑上的必然。
但对于人类大脑,我无法给出同样确定的结论。我猜测,大脑的某些功能,例如语言、数学,以及其他一些明显具有结构性的认知能力,本身就表现出强烈的组合特征。它们似乎天然符合这种层级分解的形式。但也可能存在另一种情况。比如进化上更古老的脑区,例如我们鱼类祖先所具有的中脑结构,或者像基底节这类深层脑结构,那里也许并不存在明显的模块化,也未必体现出清晰的组合结构。是有这种可能的。
保罗:是的,比如说,如果基底节只是起到“增益调节”的作用,那它本身可能就不需要那种组合结构。
托马索:也许确实不需要。也许我们甚至无法高效地模拟它。这种说法多少有点科幻意味,只是一种理论上的可能性。我并不是在断言这一点。就我个人而言,我并不认为大脑中存在某种功能是完全无法用计算机程序描述的。但我也承认,这种可能性在逻辑上不能被彻底排除。
保罗:目前还没有定论。你大概更倾向于认为,真正与智能密切相关的是大脑皮层,对吗?换句话说,人工智能主要是在模拟皮层功能。
托马索:我认为,大脑皮层很可能具有明显的组合结构,因此也更容易在计算机中加以模拟。至于大脑的其他部分,就未必如此。这其实有点讽刺。按照直觉,那些在进化上更古老、结构看起来更简单的脑区,反而可能更难被模拟。
保罗:目前也没有跨物种的证据,能够证明这种组合结构确实存在于大脑中,对吗?
托马索:没有。
保罗:我还想问一个问题,物理学之所以成功,很大程度上依赖于理论与实验之间的持续对话。理论家提出假设,实验者去验证,然后再反过来修正理论。在你这种情况下,作为一个偏理论的人,你会主动去寻找实验验证吗?你会不会去说服实验学者,比如说,“我需要这组数据”,或者“看看我的理论,大脑里有没有这样的结构”?你通常是如何推进这种合作的?
托马索:我在职业生涯中一直在这么做。只是最近几年可能少了一些。我至今都忘不了那种兴奋感。有一次,我对果蝇的行为提出了一个理论预测,其实是一个相当简单的预测。后来实验做出来,结果竟然完全符合——
保罗:天哪。那种感觉一定非常震撼吧。
很多理论学者都会有一种感觉:理论在逻辑上是成立的,所以它“必然”是正确的。对理论本身,他们已经建立起一种高度的信心。但真正看到理论在现实世界中被验证,看到实验结果与推导严丝合缝地对应,那又是完全不同层次的体验。
托马索:没错,正是这样。这种体验很有意思,而且是分层次的。虽然我不是数学家,也算不上优秀的数学家,但有几次我确实证明过一些结果,那种感觉确实令人兴奋。但当实验真正验证了你的理论,那种兴奋是完全不同的。
保罗:我其实有很多问题想问,所以在对话过程中一有机会就忍不住插进来。你觉得,谁更需要深度学习理论?是那些构建人工智能系统的机器学习工程师,还是试图解释大脑机制的神经科学家?
托马索:如果你去问OpenAI这样的机构里的顶尖研究人员,我相当确定,他们大概会说,我们并不需要理论。
保罗:听到他们这么说,你心里是什么感觉?
托马索:我想......大概已经习惯了吧。
保罗:以你的经历,完全可以说一句:“再过二十年你们就知道了”
托马索:是啊。不过你永远不知道历史会不会重演。
保罗:也是。
托马索:而且这次情况非常特殊,我们研究的对象本身就是“智能”。所以有时候我也会担心,也许理论真的会从此消失。
保罗:那不可能吧。
托马索:我的立场更像是很多年前布莱兹·帕斯卡(Blaise Pascal)提出的那个“赌注”,所谓的“帕斯卡赌注”。帕斯卡认为,从理性角度讲,更合理的选择是押注“上帝存在”,并据此行事。因为如果你押错了,假设上帝不存在,那损失有限;但如果你押的是“上帝不存在”,而事实上存在,那代价就是无限的,比如你将要永远下地狱。
保罗:不过帕斯卡赌的是“永恒”。而你有这么长一段成功的经历和成果积累,我想你大概会比帕斯卡更有底气一点吧。
托马索:是的。我主要的观点其实是:去赌一个超级智能会在短短三五年内接管我们,这毫无意义。更理性的赌注是,我们还有相当长的一段时间可以和机器合作,提升我们的智能,看看我们能一起做些什么。至于所谓的通用人工智能是否会“接管”,即便真的会发生,那也至少是很多年以后的事,甚至未必会发生。
保罗:我其实不太相信AGI是一个明确存在的东西,不过那是另一个话题了。倒是宣称AGI即将到来这件事,确实很赚钱。
托马索:是的。不过从经济角度看,这种叙事其实也有些风险。说实话,在我的职业生涯中,真正让我震惊的时刻,并不是ImageNet。2012年深度网络在ImageNet分类任务上的成功,当然非常重要,它们比之前的方法提升了大约20%,这已经是巨大的进步,但这种改进本身并没有让我特别惊讶。真正让我感到震撼的是2017年。后来我逐渐意识到Transformer模型,以及最终出现的ChatGPT,才是更大的突破。直到今天,我依然对大语言模型的能力感到惊叹。即便它们并不像我们人类那样思考,它们依然非常强大。
保罗:确实,它们强得惊人。
托马索:从图灵测试的标准来看,它们当然可以被称为“智能”。在人类历史上,这是第一次,我们不仅拥有自己的智能,还面对另一种智能形态。而且它们与我们不同。这对我们来说,是一个非常难得的机会,我们可以去研究:什么是共通的,什么是不同的。这有点像研究不同物种的基因组,比如果蝇(Drosophila)的基因组,或者秀丽隐杆线虫(C.elegans)的基因组。通过比较不同物种的基因,我们对自身基因的功能有了更深的理解。同样地,研究这些不同形态的智能,或许也能帮助我们更好地理解人类自己的智能。
保罗:刚看到大语言模型时,我的反应其实是:“哦,又一次技术进步而已。”以前大家也曾为循环神经网络兴奋过,也为LSTM兴奋过。而且几乎每一次,当一种新模型横空出世并带来巨大希望时,神经科学界总会有不少人说:“啊,现在大脑就是玻尔兹曼机。”或者“现在大脑是卷积神经网络。”如今又变成:“大脑就是大语言模型。”这到底是怎么回事?为什么我们这么容易就被带着跑?
托马索:早些年也有类似的“风潮”。那时甚至有人认为,大脑不过是一种流体力学系统。
保罗:这听起来可不太光彩。我自己就是神经科学家,这多少有点尴尬。每次新技术出来,我都会在心里想:“好吧,又来了。”结果却常常被打脸。有些突破确实让我始料未及,比如大语言模型,我当时真的是没预料到。
托马索:很多人一样,我也是等到ChatGPT出现之后,才真正意识到这种能力的强大。这是第一次能够和它自然对话。那一刻我才意识到,事情变得不一样了。
保罗:而且更有意思的是,我们几乎毫不费力就把它融入到日常生活了。至少对我来说是这样,我猜大多数人也是。它并不像一个完全陌生的技术,反而特别自然,好像一下子就嵌进了日常。我想,这本身就是它最令人震撼的地方之一。
托马索:而且在某种直觉层面上,我们也逐渐摸索出它能为我们做什么、能信任它到什么程度,以及如何更好地驾驭它。
保罗:不过在这方面,每个人的“使用能力”确实不一样。有些人会更天真一点,也更容易轻信。但如果把它当成工具来看,天哪,真的太厉害了。它作为工具的价值,简直惊人。
托马索:确实,非常了不起。
保罗:我刚才还在为自己、为神经科学家们感到尴尬,不过回到几分钟前的那个问题:到底是神经科学家更需要深度学习理论,还是搞机器学习的人更需要?神经科学家真的需要这个吗?
托马索:我认为需要。正如你刚才说的,把大脑简单地等同为一个Transformer模型,是没有意义的。
保罗:完全说不通。
托马索:如果我们能够理解Transformer所有的那些基本原则,那么这些原则本身,理论上也可能被大脑所采用,只是形式可能完全不同。当然,大脑并不一定真的在使用Transformer。但如果我们谈的是原则,而不是某种具体的工程实现,那么它完全可以通过一种截然不同的方式存在。比如,大脑是否也在某种意义上利用了“组合稀疏”的结构,或者是否存在类似自回归机制的过程。这样一来,我们至少可以提出一个更合理的问题:大脑是否运用了类似的原理?
保罗:抱歉打断一下。不过这有点像那个笑话:有人在路灯下找钥匙,因为“那儿有光”。我们会不会只是因为Transformer在那里发光,所以才从这个方向去理解大脑?那么,组合稀疏性在分析层级框架中属于哪一层?它不是一个具体算法,而是一种原则。那原则应该放在哪个层面?
托马索:这是个很有意思的问题。我想,它大概应该归入“学习理论”这一层。
保罗:那可是一个很大的范畴。
托马索:是的,确实很大。
保罗:关于理论的作用,你刚才提到,我们现在可能处在伏打和麦克斯韦之间的阶段。其中,你谈了电池发明之后涌现出的各种应用和创新,但没有谈麦克斯韦之后发生的事情。那是一个真正改变局面的时刻吗?我们真的需要麦克斯韦吗?如果没有那套理论,技术会不会照样发展?我们到底需不需要理论?
托马索:我觉得麦克斯韦之后发生的很多事情,正是因为麦克斯韦才成为可能。无线电、电视、雷达、互联网,以及制造电子元器件的能力,这些都离不开电磁学理论。当然,不只是麦克斯韦个人,而是整套电磁理论体系。理论让我们不仅能够理解电动机、发电机这些已经出现的技术,还能把它们优化、推广、系统化。更重要的是,它打开了全新的可能性,催生了后来的一系列技术革命。换句话说,理论不仅仅是解释已有成果,它本身也创造了新的空间。
流形还是组合?
不同理论的解释力与进化视角
保罗:咱们这话题其实已经跑偏又绕回来好几回了,不过还是得回到“组合稀疏性”上。在你最近发在arXiv上的那篇论文里,你把这个原则和其他一些替代原则做了对比。其中一个就是“流形学习”。现在在神经科学领域,关于“流形”的说法几乎无处不在。很多现象都被解释为存在某种低维流形结构。如果偏离这个流形,学习就会变得困难。
越接近原有流形结构,学习速度就越快,类似这样的观点。你能解释一下,“组合稀疏性”和“流形学习”之间的区别吗?为什么你更倾向于把前者视为一个更基础的原则?当然,也许我这样表述本身就不够准确。
托马索:是的。我认为这其实是同一种现象的两种不同视角。当你谈论函数的组合时,也可以把它理解为用更简单的片段逐步构造一个流形。就像视觉系统中那样,早期神经元先处理局部图像片段,然后这些局部片段被进一步组合,逐渐形成更复杂、更大尺度的视觉流形结构。我还没有系统地推导两者之间的严格数学关系,但直观上看,它们之间几乎存在一种一一对应的映射关系。
它们的区别更多体现在语言层面。正如我之前提到的,在经典数学中,人们谈论的是“结构”,例如流形。构造流形时,需要以某种平滑的方式把不同部分拼接起来。从本质上讲,这等价于在空间的不同区域定义不同的函数,并通过某种规则把它们组织在一起。这正是组合稀疏性的思想。我认为,两种说法在核心结构上是等价的。
保罗:那么组合稀疏性是否意味着,或者说是否要求,任意局部区域内都存在一个平滑的欧几里得空间结构,就像流形理论所要求的那样?
托马索:是的。在局部区域内,这个流形只依赖于高维空间中的一部分变量。而在其他区域,它可能依赖于另一部分变量,或者与前者部分重叠的变量。
保罗:既然你一直关注学习这个问题,你是否会把进化看作一种极其缓慢的学习过程?
托马索:这是一个很有意思的问题。确实有一些不错的尝试,把进化理解为一种学习过程。其中之一是莱斯利·瓦利安特(Leslie Valiant),他是一位杰出的计算机科学家,也是我的朋友。他曾写过一篇文章,把进化看作一种学习机制。从某种意义上说,它确实像你所说的,是一种更为缓慢的学习。不过,我认为事情可能比这更复杂一些。在学习过程中,你通常是在一个既定的解空间或假设空间中进行探索。人们常常称之为“假设空间”。也就是说,你事先限定了可能的函数集合,然后从中寻找最合适的那个。
在机器学习中,例如你选定了某种核方法,比如高斯核,那么你实际上就在一个特定的函数空间内搜索。训练的过程,就是在这个空间中找到最符合数据的函数。而进化的情况可能不同。它未必只是从一个固定的函数空间中进行搜索。它可能是在塑造不同的函数空间本身。换一种说法,在机器学习中,你通常已经确定了架构,然后在这个架构内通过训练解决具体问题。而进化所做的,可能是产生和筛选不同类型的架构。
保罗:也就是说,进化能够尝试的可能方案范围更广?
托马索:每一种架构所对应的搜索空间,其实都是不同的。
保罗:这是什么意思?
托马索:举个例子。假设在智能最早出现的时候,这当然只是推测,生物体只有非常简单的联结式反射。比如,一道闪光出现,就触发逃避反应。最初,这种反应大概是写在基因里的硬编码机制。后来,它可能逐渐变得更为灵活,会根据刺激强度或环境状态作出不同反应。但这种机制仍然是一种非常狭窄的解决方案。本质上,它就像一个单层网络。如果用神经网络的比喻来说,就是只有一层的结构。直到某个阶段,你发现可以使用多层结构。
这会扩大你能够表示的解决方案类型,也扩大可以学习的问题范围,但仍然不是全部。比如,在这种结构下,你可以进行类似监督学习的学习方式,但还无法像强化学习那样通过主动探索来发现策略。进化可能正是在不断“发现”或塑造这些更复杂的智能形式,或者说,不同的学习机制。换句话说,它不仅是在优化已有架构内的参数,而是在不断创造新的学习方式。
保罗:很有意思,这样理解也很合理。在最后几分钟,我们不妨再把视角拉回到更宏观的层面。刚才我把话题从你提到的“Brains,Minds,and Machines”项目带开了,听起来那是一个面向未来的计划。我现在更想问的是,你对未来的整体判断。你对接下来二十年的理论发展感到兴奋,或更多的是忐忑?同时,你认为当前这个领域真正的瓶颈是什么?我猜你的回答可能会是“学习理论”,但如果真是这样,是否还有更具体的层面值得指出?
托马索:毫无疑问,我对未来确实充满期待。当然,也难免会有一点担忧。
保罗:如果和三十年前相比,你现在的感受一样吗?你一直稳步推进自己的研究。如今是比过去更兴奋,还是更担忧?或是更从容?这是一个完全不同的阶段,还是说,你觉得这本来就是历史的自然进程?你见过各种潮起潮落,而未来也会继续向前发展。
托马索:我确实感到兴奋。当然,三十年前我也同样兴奋。但现在的赌注大多了。如今,经济的许多领域,以及科学研究的多个方向,都深度依赖机器学习。过去并非如此。正因为影响更广泛,我们更需要把方向走对,而且要真正做好。坦率地说,我从未想过,我们会在这场“智能竞赛”中走到今天这个阶段。
保罗:真的吗?这太令人惊讶了。
托马索:是的。我原本以为进展会更慢,也许到最后我想的是对的。但目前确实发生了明显的进展,尤其是大语言模型,这一点真的让我感到意外。它们为进一步探索提供了非常扎实的“落脚点”,尤其是在理论层面。同时,我也觉得,我们以及许多同行正在构建的理论体系,比十年前我所能预期的要丰富得多。当然,仍然有大量工作等待去完成。
保罗:那太好了。
托马索:这件事远没有那么简单。这并不是某种神经网络因为一两个偶然因素就“恰好成功”了。它背后有很多值得深入研究的方面,其中有些相当深刻。从研究一种在某些方面可能超越我们的人类智能这一点来看,我觉得就非常令人兴奋。不过,我一直认为,它的发展速度可能会比许多人想象的更慢。我记得大约十年前,在波多黎各的一次会议上,马克斯·泰格马克(Max Tegmark)和几位朋友组织了一场讨论。当时我们做了一个投票。大多数人预测,所谓的通用人工智能,或者超级智能,大概会在二十五年内出现。我当时给出的判断是五十年。
保罗:等等,这是多久以前的事?几年前吗?
托马索:十年前。
保罗:对那些乐观派来说,这数字已经挺大了,他们通常会说“接下来的5年、10年”。25年已经是个大数字了,但我喜欢你直接把它翻了个倍。
托马索:我当时估计的是五十年。现在的话,大概是四十年左右。我可能还是会坚持这个判断。当然,现在我觉得它也许会更快一些,但这取决于你如何定义“实现”。比如,自动驾驶就是一个很好的例子。我一直在密切关注这一领域。最初我自己参与过相关研究。后来通过我的好友阿姆农·沙舒阿(Amnon Shashua),他创办的公司Mobileye为特斯拉提供了第一套系统。自动驾驶已经“出现”了。在旧金山等城市,你可以乘坐自动驾驶出租车。但真正完全普及、随处可见的自动驾驶车辆仍然很少。而且,目前仍然做不到让一辆车在任何环境下都像人类一样自如驾驶。问题往往卡在那“最后的1%”可靠性上。恰恰是这最后1%,可能需要非常漫长的时间才能攻克。
保罗:这很有意思。人们一说“自动驾驶”,脑海里往往会自动浮现一个画面:问题已经彻底解决,自动驾驶汽车满街都是。但现实并不是这样。
托马索:确实如此。大概十年前,我在旧金山的Uber面试过一次,主要是出于兴趣。
保罗:出于兴趣去面试?
托马索:是的,我并没有真的打算加入他们。不过让我印象深刻的是,当时他们谈到自动驾驶时,语气仿佛2015年已经近在眼前,接下来六个月就会发生重大突破。
保罗:在那样的环境里工作,确实需要这种乐观精神,才能每天都有动力去推进。
托马索:大概是吧。
保罗:我算是X世代吧,可能是偏晚一点的那一批。我小时候用的是录像机那种模拟设备,也经历了电脑刚开始普及的年代。直接说重点吧。我有年幼的孩子,说实话,我很担心技术变化的速度。它变得越来越难以预测。
在过去靠马匹传递书信的时代,你大概还能比较准确地预测明年会发生什么。但现在,这些新工具会怎样影响他们,我根本无法想象,也不知道接下来会发生什么。一切都在加速。作为父亲,这种不确定感这让我感到相当不安。我知道你的孩子已经长大了。
托马索:我完全同意。当然,我也担心气候变化,但在某种意义上,我更担心人工智能与教育的问题。正如你所说,变化的速度太快,我们几乎跟不上。我们甚至不知道最好的教学方式应该是什么。你不可能禁止孩子使用ChatGPT。事实上,也许还应该鼓励他们去学会使用它。但与此同时,我们必须确保他们真正掌握数学等基础能力。
问题是,我们如何同时做到这两点?我已经在大学里看到这种困境。一方面允许使用ChatGPT,另一方面又要求学生说明何时使用、如何使用。因为我们当然不希望学生把所有的自主权都交出去,完全依赖ChatGPT,那会毁了我们的文化,毁了我们的社会。
保罗:问题在于,我们得去想办法应对它,找到解决方案。可等我们真正想清楚的时候,这个问题可能已经不复存在了,因为新的挑战又出现了。它会被下一个变化取代。我也说不好。
托马索:《百年孤独》的作者加夫列尔·加西亚·马尔克斯(García Márquez)曾说过,乘坐飞机旅行会打乱我们对世界的感知。他说,人应该像骑马或坐火车那样旅行,这样时间不会变化得太快。
否则你会被甩出去,就像经历时差一样。对教育来说,这是一场巨大的“时差反应”。
保罗:这个比喻真不错。我还记得《百年孤独》里的这句话,“世界像橙子一样是圆的”。
责任编辑:赵智华
文章来源:http://www.anfangnews.com/2026/0306/14237.shtml
