我们如何看见,又如何思考
上QQ阅读APP看书,第一时间看更新

第1章 感知之妙

梨不是架古提琴,

一具胴体或一个烧瓶。

它不像任何东西。

它有黄色的外形,

弯曲的轮廓,

底部鼓起。

带有微微的红晕。

——华莱士·史蒂文斯

看看这三张脸,尽管它们有些模糊,对比度也不高,但你仍然可以将三张脸区分开。最右边妇女的脸有些圆润,左边男孩的下巴很突出。如果他们是你的儿女、朋友或母亲,那你会更轻易地在各种场景下认出他们:你会在他们便服或素颜时认出他们,你会在强光或微光下认出他们,你会从正面或任何角度认出他们,无论他们或近或远、或哭或笑。

但你是如何在不同情况下认出他们的呢?落在你视网膜上的实际图像都是完全不同的。你的大脑针对不同版本做出调整:或大或小、或明或暗、或哭或笑。同一张脸落在你眼里呈现出的物理刺激,可以有近乎无限的变化。然而,你可以在一瞬间毫不费力地认出熟悉的脸,不仅仅是这三张脸,你可以分辨成百上千张不同的脸。大脑是如何完成这项任务的呢?它和世界上所有东西一样,不过是由物质组成的物理机器而已。

也许举一个更简单的例子能帮助你理解。想象你要设计一个识别字母A的电脑程序。现代电脑可以轻易做到这点,不是吗?与大脑相比,它们其实作弊了,我们过会儿再详细展开。

解决方案似乎很简单:在电脑(或大脑)的某处,得有一张图谱或模板,去记载字母A的样子。然后,电脑(或大脑)只要用模板来比较和匹配。假如要识别的字母A与模板中的A大小不一样,怎么办?电脑(或大脑)就只能得出结论:它们不是同一个字母?

等等,为什么不让电脑试试一堆不同大小的模板呢?这应该能解决问题了吧:

毫无疑问这行得通。但假如现在我让A转动一个小角度:

它们就不匹配了,不论电脑猜尺寸猜得多么准。

好吧,那让电脑比较所有可能的尺寸和角度。假如电脑运行速度足够快的话,那可能行得通。但到最后,我们可能会有太多变种:线条粗细、颜色、字体,等等,然后我们还得把各种变体的数量相乘。电脑最后得测试所有可能的字号大小,乘以所有可能的角度,乘以所有可能的字体,乘以可能的颜色……这个组合的数量将会变得非常非常大,大到超出实际能测试的极限。所有这些麻烦就为了一个简简单单的字母!

对脸来说,变种的数量几乎无限。一张脸可以正在微笑或者皱眉,或明或暗,朝向正面或侧面。而大脑里的组分——神经元和突触——相对电脑来说慢得多。人脑的神经元大概要花1/1000秒来将基本的信息单元跨过突触传给另一个神经元。而与此同时,一台速度较快的现代电脑可以完成约100万次操作。正是因为电脑如此高速,我才说它是在作弊——我们湿漉漉的普通生物学的大脑可做不到它们的速度。假如说电脑要花100次操作做一次比较,那在大脑传输一个神经脉冲的时间里,电脑已经做了10万次比较了。而且这还没算上信号在神经纤维里传导的时间。如果用电脑的方式来做比较,即使面对最熟悉的脸,你可怜的大脑也要花几分钟来识别。换句话说,做一大堆比较并不是大脑擅长的事情。

我们换一个其他感官的例子——听觉。听觉里有个分割问题视神经中大概有100万根神经纤维,而听神经只有3万。两种感官反映了不同的东西。视觉主要反映的是空间——光输入在视网膜上的分布。听觉反映的是时间——气压波动到达你耳朵的时间顺序。有趣的是,听觉系统的时间分辨率比视觉系统高得多得多。但是分割问题对两种感官却是一样的:对视觉来说是将不同的物体从背景中分割出来,而对听觉来说则是从时间上将一段声音从前后声音中分开。。如果我对你说:“狗是蓝色的。”你通常听到的就是一个一个可以写在纸上的字。但是通常说出来的声音并没有字与字之间的停顿。在这句话的实际录音中,除非你故意停顿,“狗”“是”“蓝”“色”“的”五个字之间都是没有空格的。这句话的物理实在是一串长的声响。我们的大脑是为了理解它才把这一长串声音分割成我们能理解的字词。

我们又一次发现,大脑不可能用模板来匹配字词。模板得囊括一种声音的多少种版本呢?肯定得比字典里的字词多得多。这还没算上不同的重音位置、语速、背景噪声等,因此大脑不可能用一个模板来理解一串声音。

这个大谜团——这个我们在日常生活中每天都轻轻松松处理并解决很多次的问题,就是所谓的对象识别问题。我们认为它只关乎感觉体验,但它也同样关乎记忆:对象识别是将当前的感官刺激与过去的对象记忆进行匹配。搞清楚它的工作原理是一件特别具有技术性的挑战,是神经生物学界的珠穆朗玛峰。