第十三章 神经网络
相当小的训练集(1024个单词)中学到的推广到它从未遇到的新词上。②这称为quot;泛化quot;。
显然网络不仅仅是它所训练过的每一个单词的查询表。它的泛化能力取决于英语发音的冗余度。并不是每一个英语单词都按自己唯一的方式发音,虽然首次接触英语的外国人容易这样想。(这个问题是由于英语具有两个起源造成的,即拉丁语系和日尔曼语系,这使得英语的词汇十分丰富。)
相对于大多数从真实神经元上收集的资料而言,神经网络的一个优点在于在训练后很容易检查它的每一个隐单元的感受野。一个字母仅会激发少数几个隐单元,还是像全息图那样它的活动在许多隐单元中传播呢?答案更接近于前者。虽然在每个字母一发音对应中并没有特殊的隐单元,但是每个这种对应并不传播到所有的隐单元。
因此便有可能检查隐单元的行为如何成簇的(即具有相同的特性)。塞吉诺斯基和罗森堡发现quot;……最重要的区别是元音与辅音完全分离,然而在这两类之中隐单元簇具有不同的模式,对于元音而言,下一个重要的变量是字母,而辅音成簇则按照了一种混合的策略,更多地依赖于它们声音的相似性。quot;
这种相当杂乱的布置在神经网络中是典型现象,其重要性在于它与许多真实皮层神经元(如视觉系统中的神经元)的反应惊人地相似,而与工程师强加给系统的那种巧妙的设计截然不同。
他们的结论是:
NEt talk是一个演示,是学习的许多方面的缩影。首先,网络在开始时具有一些合理的quot;先天quot;的知识,体现为由实验者选择的输入输出的表达形式,但没有关于英语的特别知识——网络可以对任何具有相同的字母和音素集的语言进行训练。其次,网络通过学习获得了它的能力,其间经历了几个不同的训练阶段,并达到了一种显著的水平。最后,信息分布在网络之中,因而没有一个单元或连接是必不可少的,作为结果,网络具有容错能力,对增长的损害是故障弱化的。此外,网络从损伤中恢复的速度比重新学习要快得多。
尽管这些与人类的学习和记忆很相似,但NEt talk过于简单,还不能作为人类获得阅读能力的一个好的模型。网络试图用一个阶段完成人类发育中两个阶段出现的过程,即首先是儿童学会说话;只有在单词及其含义的表达已经建立好以后,他们才学习阅读。同时,我们不仅具有使用字母-发音对应的能力,似乎还能达到整个单词的发音表达,但在网络中并没有单词水平的表达。注意到网络上并没有什么地方清楚地表达英语的发音规则,这与标准的计算机程序不同。它们内在地镶嵌在习得的权重模式当中。这正是小孩学习语言的方式。它能正确他说话,但对它的脑所默认的规则一无所知。①
NEt talk有几条特性是与生物学大为抵触的。网络的单元违背了一条规律,即一个神经元只能产生兴奋性或抑制性输出,而不会二者皆有。更为严重的是,照字面上说,反传算法要求教师信息快速地沿传递向前的操作信息的同一个突触发送回去。这在脑中是完全不可能发生的。试验中用了独立的回路来完成这一步,但对我而言它们显得过于勉强,并不符合生物原型。
尽管有这些局限性,NEt talk展示了一个相对简单的神经网络所能完成的功能,给人印象非常深刻。别忘了那里只有不足500个神经元和2万个连接。如果包括(在前面的脚注中列出的)某些限制和忽略,这个数目将会大一些,但恐怕不会大10倍。而在每一侧新皮层边长大约四分之一毫米的一小块表面(比针尖还小)有大约5000个神经元。因而与脑相比,NEt talk仅是极小的一部分。②所以它能学会这样相对复杂的任务给