深度学习之父GeoffreyHint

去年11月,“深度学习之父”、计算机科学家、认知心理学家杰弗里辛顿(GeoffreyHinton)进行了一次预测。经过了半个世纪的尝试之后——其中一些取得了巨大的成功,辛顿对大脑的工作原理以及将其复制到电脑中的方法有了更加深刻的认识。

新冠大流行期间,辛顿一直在多伦多的家庭办公室中隔离。他说道,“这是我目前能够想到的最好的想法。”如果这个想法能够实现,那么它可能会给下一代的人工神经网络带来启发。

这种数学计算系统的设计灵感来自于大脑的神经元和突触,而它也是当今人工智能的核心技术。正如辛顿所说的那样,他的“根本动机”源自好奇心。然而,实际动机——最理想的结果,却是设计出更加可靠、更加值得信赖的人工智能系统。

作为谷歌研究员与向量人工智能研究所联合创始人的辛顿,断断续续写下了自己的想法,并于2月末在推特上宣布,他在arXiv预印本服务器上发表了一篇44页的论文。

辛顿在免责声明中写道:“这篇论文所介绍的并不是实际工作中的系统,而是一种构想中的系统。”他称之为“GLOM”,“GLOM”源于单词“聚集”以及短语“聚在一起”。

辛顿认为,GLOM可以在机器中还原人类的感知系统,它为在神经网络中处理和呈现视觉信息提供了新的途径。从技术层面来说,该系统是一个相似向量的集合体。

向量是神经网络的基础,一个向量就是一组包含着信息的数字阵列。最简单的例子就是一个点的xyz坐标,三个数字就可以表示出一个点在三维空间中的位置。

六维向量包含另外三个信息,也许它们代表着这个点的颜色的红绿蓝值。在神经网络中,成千上万个维度中的向量代表着整个图像或文本。辛顿认为,在处理更高维度的问题时,我们的大脑活动会涉及到“与神经活动有关的大型向量”。

通过类比,辛顿将相似向量的聚集比作了回声室效应——一种将相似观点放大的效应。辛顿表示,“对于政治和社会来说,回声室效应完全是一场灾难。但对于神经网络而言,它却是一个好东西。”

他将映射了回声室效应概念的神经网络称为“相同向量的岛屿”,或者更加通俗易懂的“共识岛屿”——当向量在本质信息上达成一致时,它们就会指向相同的方向。

从本质上看,GLOM同时还在追求实现模拟直觉这一难以达到的目标。辛顿认为,直觉对于感知活动至关重要。他将直觉定义为人类可以轻易进行类比的能力。从小到大,我们通过类比推理以及将相似的物体、观点或概念映射到另一个对象的方法来感知世界,或者就像辛顿所说的那样,从一个大型向量到另一个大型向量。

他还表示:“大型向量的相似性解释了神经网络进行直觉性类比推理的方式。”从更广泛的层面来看,直觉捕捉到了人脑产生想法的难以形容的方式。辛顿的工作遵循着直觉和科学,一切都是在直觉和类比方法的指导下进行的。他的关于大脑运作方式的理论全都与直觉有关。辛顿表示,“我一直都坚定不移。”

辛顿希望,在人工智能能够真正灵活解决问题之前——可以像人类那样思考,同时还能够理解从未见到过的事物,从以前的经验中寻找相似性,琢磨想法,并且进行概括、推断以及理解——GLOM可以成为诸多技术突破之一。

辛顿说道,“如果神经网络更像人类,那么至少它们就可以像我们一样犯错误,因此我们就能够了解到底是什么让它们感到困惑。”

然而,GLOM暂时只是一种想法。辛顿说道,“它是一个雾件。”他承认GLOM这个缩写与“杰弗里最后的原创模型”完美契合。至少,这是辛顿最新的研究成果。

创造性思维

辛顿对人工神经网络(诞生于二十世纪中期)的热情可以追溯到上个世纪七十年代早期。到年,他已经在该领域取得了极大的进展:尽管最初的网络仅由几层负责输入与输出的神经元层构成,但辛顿和同事们还是提出了更高级的多层网络技术。然而,计算能力和数据容量赶上并利用好深度架构却花费了26年的时间。

年,辛顿因在深度学习领域取得突破而名利双收,他与两名学生一起开发了一种多层神经网络,该神经网络可被训练识别大型图像数据集中的物体。

神经网络学会了去反复提升分类以及识别各种物体的方法——例如,螨虫、蘑菇、小型摩托车以及马达加斯加猫。该系统表现出了出乎意料的精准度。

深度学习引发了最新的人工智能革命,并改变了整个计算机视觉领域。辛顿认为,深度学习几乎可以完全复制人类的智能。

尽管该领域取得了较快的发展,但重大挑战依然存在。在面对陌生的数据集或环境时,神经网络会显得相对脆弱和不够灵活。

自动驾驶汽车和文本语言生成器让人印象深刻,但它们也会出错。人工智能视觉系统也会犯糊涂:系统可以从侧方视角识别出咖啡杯,但如果没有经过训练,就无法从俯视视角认出它;再加上一些像素的变换,熊猫可能会被错认成鸵鸟,甚至是校车。

GLOM解决了视觉感知系统领域的两个重大难题:从物体以及它们的自然部分角度认识整个场景,以及从新的视角认识事物(GLOM侧重于视觉,但辛顿希望它还能够应用于语言领域)。

拿辛顿的脸作为例子,疲惫但充满活力的双眼、嘴、耳朵以及显眼的鼻子,都笼罩在较为干净的灰色中。从显眼的鼻子可以看出,即使第一次见到辛顿的照片,也可以轻易地认出他。

在辛顿看来,这两个因素——部分与整体的关系以及视角——对人类的视觉系统至关重要。他说:“如果GLOM能够运行的话,那么它将比现在的神经网络更像人类那样去感知事物。”

然而,对于计算机来说,将部分融入整体是一个难题,因为有时候部分的概念是模棱两可的。一个圆圈可能是一只眼睛、一个甜甜圈或者一个车轮。

正如辛顿所解释的那样,第一代人工智能视觉系统主要通过部分与整体的几何关系——部分之间与部分与整体之间的空间方向——来识别物体。

而第二代系统则依靠深度学习——使用神经网络训练大量的数据,辛顿在GLOM中将两个方法各自的优势结合在了一起。

Robust.AI创始人兼首席执行官、对强烈依赖深度学习行为的知名批评家加里马库斯表示,“这种谦逊让我喜欢。”

马库斯对辛顿挑战自我从而再次成名的意愿表示称赞,并承认这种方法并不太奏效。他说道,“这是一个勇敢的想法。而‘我正在尝试使用创造性思维’的说法是一次非常好的纠正行为。”

GLOM的架构

辛顿在构建GLOM时尝试模拟一些人类在感知世界时所使用的心理捷径,例如直觉策略或者启发法。尼克弗罗斯特是一名多伦多语言初创公司的计算机科学家,同时也与辛顿在谷歌大脑共事。

弗罗斯特表示,“GLOM以及杰弗里的大部分工作都在研究人类所拥有的启发法,并构建可以学习启发法的神经网络,之后再证明神经网络更加适合视觉分析。”

通过视觉感知,一种策略是分析一个物体的各个部分——例如不同的面部特征,进而了解整体。如果你看到一个特定的鼻子,那么你也许会认出它出自辛顿的脸,这是一个部分到整体的层次结构。

为了构建一个更好的视觉系统,辛顿表示,“我有很强的直觉,我们需要用到部分到整体的层次结构。”人类的大脑通过构建“解析树”来理解部分到整体的构成。

解析树是一种分支图,表明了整体、部分以及次级部分之间的层次关系。脸位于解析树的最顶端,而眼睛、鼻子、耳朵以及嘴则位于下面的分支中。

辛顿利用GLOM实现的主要目标之一是在神经网络中再现解析树,这一特征将使GLOM与以往的神经网络区别开来。从技术层面来看,构建该系统的难度较大。

弗罗斯特表示,“难以实现的原因在于,每个人都会以独特的解析树来解析每个图像,而我们希望神经网络也做到这一点。对于系统看到的每一个新图像,我们很难去使用神经网络——新结构——解析树这样的静态结构。”

辛顿进行了各种各样的尝试,GLOM是他在年所进行的尝试的修正版本,同时还结合了该领域内其它的相关先进技术。

构想GLOM架构的方法一般是这样的:感兴趣的图片(比方说,辛顿面部的照片)会被网格分割开来。网格上的区域代表着图像上的“位置”——这个位置可能包括了虹膜,而另一个位置可能包含了鼻尖。

网络中的每个位置大约有五层,或者说五级。系统会逐层进行预测,并利用向量代表内容或者信息。在靠近低层的地方,向量代表着预测的鼻尖的位置:“我是鼻子的一部分!”在接下来的层级中,通过构建更加合乎逻辑的视觉表现,向量可能会预测:“我是侧脸图像中的一部分!”

然而,接下来问题出现了:同一层级中相邻的向量会认同吗?当达成一致时,向量会指向同一个方向:“是的,我们都属于同一个鼻子。”或者是指向之后的解析树。“是的,我们都属于同一张脸。”

在寻求物体本质共识的过程中——有关物体最终的精确定义,GLOM的向量会反复地、逐一地点并逐层地与旁边相邻的向量,以及上层或下层的已经做出预测的向量进行平均分配。

然而,辛顿表示,网络并不会与附近的向量“随意均分”。这是有选择性的平均分配,相邻的预测显示出了相似性。

他还说道,“它在美国非常有名,通常被称为回声室效应。你只会接受和你达成一致的人的观点。这样,一个回声室就形成了,里面所有人都持有着相同的观点。事实上,GLOM积极地使用了这种现象。”辛顿系统中类似的现象就是那些“共识岛屿”。

弗罗斯特表示,“设想一群人在一个房间中大声讨论着有些许不同的相似观点。”或者把他们想成大致指向同一个方向的向量。“一段时间之后,所有的想法都会汇聚成为一个想法。他们会觉得这个想法的影响力越来越强大,因为该想法已经得到了身边人的证实。”这就是GLOM向量加强和放大针对一个图像的协同预测的方法。

GLOM利用这些共识向量岛屿来达成神经网络中解析树的工作方式,尽管最近一些神经网络使用向量间的共识来进行激活,但GLOM使用共识的目的却是为了呈现结果——在网络中构建出事物的表现形式。

例如,当多个向量都认同它们是鼻子的一部分时,小规模的认同向量会共同表示网络中面部解析树的鼻子。另一个较小的认同向量集合可能代表着解析树中的嘴,而位于解析树顶端的大型集合则可能代表着一个新的结果——整体图像是辛顿的脸。

辛顿解释说,“解析树在这里的呈现方式是:物体层级表现为大型岛屿,而物体的各个部分是体积较小的岛屿,次级部分则为更小的岛屿,如此向下。”

辛顿有关GLOM论文中的图表,各个层级中的相同向量(颜色相同的箭头)的岛屿代表着一个解析树(来源:辛顿)

蒙特利尔大学计算机科学家约书亚本吉奥是辛顿的老友和同事,本吉奥表示,如果GLOM能够解决在神经网络中表现解析树的工程学挑战,那么这将成为一个伟大的成就,它对于让神经网络正常工作至关重要。

他还说道,“杰弗里在他的生涯中做出过许多次意义非凡的预测,其中很多都得到了验证。因此,我会对这些预测保持



转载请注明地址:http://www.duanxua.com/dxyj/11250.html
  • 上一篇文章:
  • 下一篇文章: 没有了