泛魔识别架构

本页使用了标题或全文手工转换
维基百科,自由的百科全书
奥利弗·塞尔弗里奇在1959年提出最早的泛魔识别模型

泛魔识别架构(英语:Pandemonium architecture),又称为鬼域模型群魔混战模型,是对于范本比对理论(template matching,或称模板匹配理论)无法为图像恒常性现象提供生物学上合理的解释所作的回应。 当代的研究人员对泛魔识别架构的优美及创意赞誉有加;让具有多个独立系统(如特征检测器)平行工作以解决图像识别的图像恒常性现象,这样的想法非常强大,却又很简单。泛魔识别架构的基本思想是,人们在感知“整体”的图像之前,会先感知其各个部分。[1]

泛魔识别架构是图像识别中最早的计算模型之一。尽管并不完美,但泛魔识别架构仍影响了现代联结主义者、人工智慧单词识别模型的发展。[2]

历史

我们感知到狗,但是我们是如何感知?还有为什么能够感知呢?

大多数关于知觉的研究都聚焦在视觉系统上,研究人们如何看到和理解物体的机制。 视觉系统的关键功能是其识别图像的能力,但是实现这一功能的机制尚不清楚。 [3]

最早试图解释人们如何识别图像的理论是范本比对模型。根据该模型,人们会将所有外部刺激与内部心智表征进行比较。如果所感知到的刺激与内部表征之间存在“足够”的重叠,人们将能够“辨别”该刺激。 尽管某些机器符合范本比对模型(例如,银行机器验证签名和帐目编号),但该理论在解释图像恒常性的方面存在严重缺陷:无论刺激物的呈现形式如何变化,人们都能轻易地辨别出该刺激(例如,T和T都可以很容易认作字母T)。人们不太可能为每个单一图像的所有变体都提供存储模板。 [4]

由于对范本比对模型有着生物学合理性的批评,特征检测模型开始兴起。在特征检测模型中,首先会感知图像个别的基本元素,然后再把它作为一个整体的物体来识别。 例如,当看到字母A时,人们会先看到一条较短的水平线和两条倾斜的长对角线,然后将特征组合起来,完成对A的感知。每个独特的图像都由不同的特征组合而成,这意味着那些由相同特征形成的图像将产生相同的识别效果。 也就是说,无论人们如何旋转字母A,这些旋转后的对象仍然会被认作字母A。这种架构很容易解释图像的恒定现象,这是因为只需要在基本特征层面上“匹配”即可,这层面被假定作有限的,因此在生物学上是合理的。 最著名的特征检测模型称为泛魔识别架构。 [4]

泛魔识别架构

泛魔识别架构最初由奥利弗·塞尔弗里奇在1950年代后期所开发。 该架构由独立工作以处理视觉刺激的不同组别的“恶魔”团体所构成。 每组恶魔都会被分配到某个识别的特定阶段,而恶魔会在每个团体中平行工作。 原始架构中有四组主要恶魔。 [3]

泛魔识别架构的四个主要处理阶段 [3]
阶段 恶魔名字 功能
1 图片恶魔 记录视网膜中接收到的图像。
2 特征恶魔 特征恶魔很多,每个恶魔代表一个特定的特征。 例如,某个特征恶魔负责短直线,另一个恶魔则负责曲线,依此类推。 如果特征恶魔检测到它们所对应的特征,它们的工作就是负责“呐喊”。 请注意,特征恶魔并不代表任何特定的神经元 ,而是要代表一群具有相似功能的神经元。 例如,垂直线特征恶魔用于表示那些对视网膜图像中的垂直线作出反应的神经元。
3 认知恶魔 认知恶魔会观望来自特征魔鬼的“呐喊”。每个认知恶魔负责特定的图像(例如,字母表中的字母)。 认知恶魔是基于特征恶魔检测到的图像数量来“呐喊”。 认知恶魔发现与他们的图像相对应的特征越多,它们“呐喊”的声音就越大。 例如,如果曲线、长直线和短角线的特征恶魔发出了大声呐喊,那么R字母认知恶魔可能会非常兴奋,而P字母认知恶魔也可能会变得有些兴奋。但是Z字母认知恶魔则很可能保持安静。
4 决策恶魔 代表处理的最后阶段。决策恶魔会倾听认知恶魔发出的“呐喊”。它会从中选择最响亮的认知恶魔。被选中的恶魔则成为意识知觉。沿续前面的例子,R认知恶魔的声音将会是最响亮的,其次是P认知恶魔。因此人们会感知到R,但是如果由于显示条件不好(例如,字母快速闪烁或部分被遮挡)而出错,则很可能会感知到P。

注意,“泛魔识别”(pandemonium)仅表示系统所产生的“呐喊”累积。

特征恶魔的概念,即特定的神经元专用于执行专门的处理,在神经科学研究上得到了支持。休伯尔威泽尔发现脑中有特定的细胞对特定长度和方向的线作出反应。在青蛙章鱼和其他各种动物中也有类似的发现。人们发现章鱼只对线条的垂直度敏感,而青蛙则表现出更宽的敏感性。 这些动物实验表明,特征检测器似乎是非常早期就发展而成。也就是说,它不是由于人类的更高认知发展所致。毫不奇怪,也有证据表明人脑也具有这些基本特征检测器。[5] [6] [7]

此外,这种架构还能够学习类似于反向传播型的神经网络。认知恶魔和特征恶魔之间的权重可以根据正确图像和来自认知恶魔的激发之间的差异,按比例来调整。延续前面的例子,当第一次学习字母R时,人们知道字母R是由曲线、长直线和短角线组成。因此当人们感知到这些特征时,人们感知到的是R,但是字母P也是由非常相似的特征组成,所以在第一次学习的时候,这个架构很可能会误将R识别为P,但是透过不断的接触确认R的特征而将其识别为R,R的特征对P的权重会被调整,所以P的反应就会被抑制(例如,当检测到短角线时学会抑制P响应)。 原则上,泛魔识别架构可以识别任何图像。 [8]

如前所述,该架构基于重叠特征的数量进行错误预测。例如,R最有可能的错误应该是P。因此,为了表明这种架构代表了人类图像识别系统,必须对这些预测进行测试。研究人员构建了一些场景,在这些场景中,各种字母呈现出难以识别的情况;然后观察错误的类型,用来生成混淆矩阵(记录所有每个字母的错误)。 通常,这些实验的结果与泛魔识别架构的错误预测相匹配。 此外,由于这些实验,研究人员也提出了一些模型,试图列出罗马字母中的所有基本特征。[9][10][11][12]

批评

泛魔识别架构主要令人诟病的地方在于,它采用了完全自下而上的处理:识别完全是由目标刺激的物理特征所驱动。 这意味着它不能解释任何自上而下的处理效果,像是脉络效果( 例如空想性错视 ),也就是脉络线索可以促进处理(如单词优势效应:当字母是单词的一部分时,这时识别它要比单独识别它要容易)。 然而,这批评对整体架构来说,并不是致命错误,因为添加一群脉络恶魔来与认知恶魔一起工作来解释这些脉络效应是相对容易的。 [13]

全局到局部假设的证明:人们会看到H之前,先看到A。

虽然泛魔识别架构是建立在它可以解释图像恒定现象的基础上的,但一些研究者却提出了相反的观点;并指出泛魔识别架构可能与范本比对模型有着同样的缺陷。例如,字母H是由2条长垂直线和1条短水平线组成;但如果将H向任一方向旋转90度,现在它是由2条长水平线和1条短垂直线组成。为了将旋转后的H识别为H,就需要一个旋转后的H认知恶魔。因此,最终可能会得到需要大量认知恶魔才能准确识别的系统,这将重演对范本比对模型同样的生物学合理性批评。然而,要判断这种批评的有效性相当困难,因为泛魔识别架构并没有具体说明,如何提取感官输入资讯中的特征,以及要提取什么特征,它只是概述了图像识别的可能阶段。但这当然会导致了该模型自身的问题,如果如果这种模型不包括具体的参数,几乎没办法对此批评。另外,在没有定义如何提取特征和提取什么特征的情况下,该理论似乎相当不完整,这也被事实证明,该问题在复杂的图像(例如,提取一只狗的重量和特征)的情况下尤其严重。 [3] [14]

一些研究者还指出,泛魔识别架构的支持证据在研究方法上非常勉强。大多数支持这种架构的研究常常提到其识别简单示意图的能力,这些示意图是从一个小量的有限集合(如罗马字母表中的字母)中选出。这类实验的证据可能会导致过度概括和误导性的结论,因为三维图像的识别过程很复杂,可能与简单的示意图有很大不同。此外,有些人还批评了生成混淆矩阵的研究方法,因为它把知觉混淆(错误答案和正确答案之间的特征发生重叠,进而造成识别错误)和知觉后猜测(无法确定看到什么,于是随机猜测)混为一谈。然而,当用其他范型(例如,去/不去和同异任务)复制类似的结果时,这些批评在某种程度上得到了解决,支持了人类确实有基本特征检测器的说法。这些新的范型依靠反应时间作为因变量,这也避免了混淆矩阵固有的空单元格问题(当数据有空单元格时,统计分析很难进行和解释)。 [7]

此外,一些研究人员指出,像泛魔识别架构这样的特征积累理论,几乎把图像识别的处理阶段弄反。 这种批评主要是由全局到局部理论的拥护者使用,他们争论并提供了证据,即知觉首先是从模糊的整体观开始,随着时间的流逝而不断完善,这意味着特征提取不会发生在识别的早期阶段。 [15]然而,没有什么可以阻止一个恶魔在识别一个全局图像的同时,其他恶魔也在全局图像中识别局部图像。

应用和影响

基于泛魔识别的系统能够正确地将所有这些刺激识别为字母A,而不用事先接触这些确切的刺激。

泛魔识别架构已被应用于解决实际问题,例如翻译手动发送的摩尔斯电码和识别手写的字母。基于泛魔识别模型的总体精度令人印象深刻,即使该系统的学习时间很短也是如此。 例如,Doyle构建了一个基于泛魔识别的系统,拥有超过30个复杂的特征分析器。然后,他给系统输入了几百个字母进行学习。在这个阶段,系统对输入的字母进行分析,并产生自己的输出(系统将输入识别成什么样的字母)。系统的输出结果会与正确的识别结果进行比较,并向系统送回误差信号,进而相应调整特征分析器之间的权重。在测试阶段时,会将系统不熟悉的字母呈现给系统(与学习阶段所呈现的字母风格和大小不同),而系统能够达到接近90%的准确率。 由于其出色的识别单词的能力,所有关于人类如何阅读和识别单词的现代理论都遵循着这种分层式结构:单词识别会从提取字母的特征开始,然后激发字母检测器[16] (例如SOLAR, [17] SERIOL, [18] IA, [19] DRC [20] )。

约翰·杰克逊(John Jackson)在最初的泛魔识别架构的基础上进行扩展,将该理论扩展到解释超出感知范围之外的现象。杰克逊提出了一个竞技场的比喻来解释 "意识"。他的竞技场由一个看台、一个运动场和一个子竞技场组成。竞技场内挤满了恶魔。在运动场上被指定的恶魔是活跃的恶魔,因为它们代表了人类意识的活跃元素。看台上的恶魔则会观察那些运动场上的恶魔,直到有什么东西让他们兴奋起来,每个恶魔是由不同的东西所激励。恶魔们越是兴奋,他们的叫喊声就越大。如果恶魔的叫喊声达到一个设置门槛,就可以加入运动场的其他恶魔,一起发挥它们的功能,然后可能又接着激励其他恶魔,如此不断循环下去。模拟的子竞技场则作为系统的学习和反馈机制。这里的学习系统类似于其他任何神经样式的网络,透过修改恶魔之间的联结强度来学习,换句话说,就是恶魔们如何回应彼此的叫喊。这种多代理的人类消息处理方式成为了许多现代人工智慧系统的假设。 [21] [22]

比较

与范本比对理论的比较

尽管泛魔识别架构是作为回应范本比对理论的诟病而出现,但实际上两者在某种意义上非常相似:存在一个历程,将一组检验项目的特定特征集与某种心理表征进行匹配。两者之间的关键区别在于,在范本比对理论中,图像是直接与内部表征进行对比,而在泛魔识别架构中,图像是先在特征层面进行扩散和处理。这就赋予了泛魔识别架构巨大的威力,因为它能在刺激物的大小、风格和其他变换都会发生改变的情况下,依然能够将其辨别刺激,而不需要假定有着无限的图像记忆。在面对现实的视觉输入时,范本比对理论也不可能正常发挥作用,因为在现实中,物体是以三维的方式呈现,而且经常被其他物体遮挡(例如,一本书有半个部分被纸遮住,但仍然可以容易地将其识别为一本书)。尽管如此,一些研究者还是进行了两种理论的比较实验。毫不意外的是,结果往往倾向于像泛魔识别架构这样的分层式特征之建模。[23] [24] [25]

与赫布图像识别的比较

赫布模型在许多方面类似于像是泛魔识别架构的特征导向理论。赫布模型中的第一级处理称为细胞集群(Cell Assemblies),其功能与特征恶魔非常相似。但是,细胞集群较特征恶魔更受限制,因为它只能提取线、角度和轮廓。 细胞集群会被组合来形成相序,这与认知恶魔的功能非常相似。 从某种意义上说,许多人认为赫布模型是范本比对理论和特征匹配理论之间的交叉点,这是因为从赫布模型中所提取的特征可以视为简单模板。 [8]

参见

参考文献

  1. ^ Anderson, James A.; Rosenfeld, Edward. Neurocomputing 2nd print. Cambridge, Mass.: MIT Press. 1988. ISBN 978-0262010979. 
  2. ^ Gernsbacher, Morton Ann. Handbook of psycholinguistics [Nachdr.] San Diego, Calif. [u.a.]: Academic Press. 1998. ISBN 978-0-12-280890-6. 
  3. ^ 3.0 3.1 3.2 3.3 Lindsay, Peter H.; Norman, Donald A. Human Information Processing 2nd. New York: Academic Press. 1977. ISBN 978-0124509603. 
  4. ^ 4.0 4.1 Friedenberg, Jay; Silverman, Gordon. Cognitive Science: An introduction to the study of mind 2nd. Thousand Oaks, Calif.: SAGE. 2011-07-14. ISBN 9781412977616. 
  5. ^ Sutherland, Stuart. Visual Discrimination of Shape by Octopus. British Journal of Psychology. 1957, 48 (1): 55–70. PMID 13413184. doi:10.1111/j.2044-8295.1957.tb00599.x. 
  6. ^ Lettvin, J.; Maturana, H., McCulloch, W., Pitts, W. What the Frog's Eye Tells the Frog's Brain. Proceedings of the IRE. 1959-11-01, 47 (11): 1940–1951. doi:10.1109/JRPROC.1959.287207. 
  7. ^ 7.0 7.1 Grainger, Jonathan; Rey, Arnaud, Dufau, Stéphane. Letter perception: from pixels to pandemonium. Trends in Cognitive Sciences. 2008-10-01, 12 (10): 381–387. PMID 18760658. doi:10.1016/j.tics.2008.06.006. 
  8. ^ 8.0 8.1 Neisser, Ulric. Cognitive Psychology. New York: Appleton-Century-Crofts. 1967. Neisser, Ulric. 
  9. ^ Kinney, Glenn; Marsetta, Marion; Showman, Diana. Studies of Display Symbol Legibility, Part XII: The legibility of alphanumeric symbols for digitalized television. Bedford, Mass: The Mitre Corporation. 1966. 
  10. ^ Gibson, Eleanor J. Principles of Perceptual Learning and Development. New York: Appleton-Century-Crofts. 1969. ISBN 9780390361455. 
  11. ^ Geyer, L. H.; DeWald, C. G. Feature lists and confusion matrices. Perception & Psychophysics. 1973-10-01, 14 (3): 471–482. doi:10.3758/BF03211185. 
  12. ^ Keren, Gideon; Baggen, Stan. Recognition models of alphanumeric characters. Perception & Psychophysics. 1981-05-01, 29 (3): 234–246. PMID 7267275. doi:10.3758/BF03207290. 
  13. ^ Reicher, Gerald M. Perceptual recognition as a function of meaningfulness of stimulus material.. Journal of Experimental Psychology. 1969-01-01, 81 (2): 275–280. PMID 5811803. doi:10.1037/h0027768. 
  14. ^ Minsky, Marvin Lee; Papert, Seymour. Perceptrons: An introduction to computational geometry 2nd print. with corr. Cambridge, Mass.: MIT Press. 1969. ISBN 978-0262630221. 
  15. ^ Lupker, Stephen J. On the nature of perceptual information during letter perception. Perception & Psychophysics. 1979-07-01, 25 (4): 303–312. PMID 461090. doi:10.3758/BF03198809. 
  16. ^ Doyle, W. Recognition of sloppy, hand-printed characters. San Francisco, California: Proc. West Joint Computer Conference. 1960. 
  17. ^ Davis, Colin J. The spatial coding model of visual word identification. Psychological Review. 2010-01-01, 117 (3): 713–758. PMID 20658851. doi:10.1037/a0019738. 
  18. ^ Whitney, Carol. How the brain encodes the order of letters in a printed word: The SERIOL model and selective literature review. Psychonomic Bulletin & Review. 2001-06-01, 8 (2): 221–243. PMID 11495111. doi:10.3758/BF03196158. 
  19. ^ McClelland, James L.; Rumelhart, David E. An interactive activation model of context effects in letter perception: I. An account of basic findings.. Psychological Review. 1981-01-01, 88 (5): 375–407. doi:10.1037/0033-295X.88.5.375. 
  20. ^ Coltheart, Max; Rastle, Kathleen, Perry, Conrad, Langdon, Robyn, Ziegler, Johannes. DRC: A dual route cascaded model of visual word recognition and reading aloud.. Psychological Review. 2001-01-01, 108 (1): 204–256. PMID 11212628. doi:10.1037/0033-295X.108.1.204. 
  21. ^ Jackson, John. Idea for a Mind. Sigart Newsletter. July 1987. 
  22. ^ Ntuen, Celestine A.; Park, Eui H. Human interactions with complex systems: Conceptual principles and design practice. Springer. 1996. ISBN 978-0792397793. 
  23. ^ Gibson, J. Learning to Read. Science. May 1965, 148 (3673): 1066–1072. Bibcode:1965Sci...148.1066G. PMID 14289608. doi:10.1126/science.148.3673.1066. 
  24. ^ Wheeler, Daniel D. Processes in word recognition. Cognitive Psychology. 1970-01-01, 1 (1): 59–85. doi:10.1016/0010-0285(70)90005-8. 
  25. ^ Larsen, Axel; Bundesen, Claus. A template-matching pandemonium recognizes unconstrained handwritten characters with high accuracy. Memory & Cognition. 1996-03-01, 24 (2): 136–143. PMID 8881318. doi:10.3758/BF03200876.