终极算法 第八章 无师自通

终极算法 第八章 摘要

与我们最为相关的认知科学家以算法的形式来表达关于儿童学习的理论。许多机器学习研究人员由此得出灵感:我们需要的一切都存在于孩子的大脑中,如果能用编码的形式来获取其精华就好了。

受到儿童心理学影响的研究人员 会看不惯神经网络学,因为一个神经元的微型运作与孩子最基本行为的复杂度也相差十万八千里,这些行为包括伸手去拿东西、抓住东西,然后睁大眼睛好奇地观察它。我们需以更抽象的水平来模拟儿童的学习,以免只见树木、不见森林。首先,虽然孩子理所当然从父母那里获得了许多帮助,但很多时候他们是在没人监督的情况下进行自学,这才是最不可思议的地方。目前为止,我们见过的算法还无法做到这一点。

物以类聚, 人以群分

对事物进行聚类,这是人类的天性,也是获取知识的第一步。k均值算法(k–means algorithm),它的起源可以追溯到20世纪50年代。它 精密、简单、人气很高,但有几个不足,而其中的一些问题和其他问题相比较容易解决。

发现数据的形状

一张脸大约有50块肌肉,因此50个数字足以用来描述所有可能的表情,而且还有很大的 剩余空间。眼睛、鼻子、嘴巴等的样子(就是让你区分于别人的特点)的数量也不应该超过 几十种。毕竟如果面部特点只有10个选择,那么警察局的拼图师就能大概描绘出疑犯的肖像,足以用来认出他。你可以添加几个数量,用来确定光线和姿态,这样就差不多了。因此如果你给我100多个数量,就已经足以重新构造一张脸部图片。机器学习算法称该过程为维数约简,因为该过程将大量的可见维度(像素)简化成几个 隐性维度(表情、面部特征)。维数约简对于应对大数据(像每秒钟通过你的知觉而进入的 数据)来说很关键。一张图可能抵得上1000个字,但要处理和记住所做的付出,却要高出100万倍。你的视觉皮质好歹把大数据削减为数量上可管理的信息,足以用来引导这个世界、识别人和物、记住你看见的东西。这是认知最伟大的奇迹之一,并且如此自然,你甚至 意识不到自己正在做这些事。

拥护享乐主义的机器人

聚类和维度简化虽然使我们更加靠近人类学习,但仍丢失了一些很重要的东西。孩子们并不只是消极地观察这个世界,他们会行动,会将看到的东西捡起来,和这些东西玩、到处 跑、吃东西、哭、问问题。如果无法帮助罗比与周围环境互动,那么最先进的视觉系统也毫无用处。罗比不仅要知道东西的位置,也要知道每一刻该做什么。

前几章中学习算法都由“即时满足”这一原则引导:每个行为,无论是标记垃圾邮件,还是购买股票,都会从“老师”那里得到即时奖励(或者处罚)。有一个机器学习的子域致力于 这样的算法:进行主动探索,偶然得到奖励,然后弄清楚将来怎样才能再得到奖励。这很像 婴儿到处爬和把东西放到嘴里。这个过程称为“强化学习”,你的第一个家用机器人可能会经常用到这种方法。

强化学习的首要思想是:并不是所有的状态都有奖励(正面或者负面),但每种状态都 会有价值。在棋类游戏中,唯独最后的位置才有奖励(比如1、0、–1,分别代表赢、平局或 者输)。虽然其他位置没有即时奖励,但有价值,因为通过这些位置可以得到最后的奖励。

对于强化学习的研究自20世纪80年代早期才正式开始,马萨诸塞大学的里奇·萨顿和安 迪·巴尔托参与了研究工作。他们认为学习取决于与环境的互动,这一点很关键,但监督算 法并没有发现这一点;而且他们在动物习得心理学领域找到灵感。萨顿成为强化学习的主要倡导者。另一个关键进展发生在1989年,当时剑桥大学的克里斯·沃特金斯在儿童学习实验发现的推动下,实现了强化学习的现代形式,即在未知环境中进行最优控制。

最近的一种强化学习算法,来自DeepMind(伦敦的一家创业公司),在电视体育游戏及其他简单的大型电玩中打败了一位专家级的人类选手。它利用深层网络来从控制台屏幕低像素的动作中预测其价值。有了端对端的视野、学习和控制,该系统 与人工大脑至少有一点相似之处。这可以解释为什么DeepMind是一家没有产品和利润,员工也寥寥无几的公司,但谷歌却向它投了5亿美元。

除了游戏,研究人员还可以利用强化学习来平衡极点、控制简笔画的体操运动员、使汽车倒车入位、驾驶直升机颠倒飞行、管理自动电话对话、分配手机网络中的频道、调度电梯、安排航天飞机货运装载等。强化学习也对心理学和神经科学产生了影响。大脑利用神经递质多巴胺来传播期望奖励与实际奖励之间的区别。强化学习解释了巴甫洛夫条件反射作用,但不像行为主义,它允许动物有内部心理状态。觅食的蜜蜂会利用它,在迷宫中找到奶酪的老鼠也是如此。你的日常生活由一连串你很少注意到的、由强化学习形成的奇迹组成。你起床、穿衣服、吃早餐,然后开车去上班,这些过程中你一直在思考别的事情。实际上,强化学习会不断精心安排和调整这个奇妙的动作交响曲。强化学习片段(为习惯)组成大多数你做的事。当你觉得饿了时,会走到冰箱前,拿一点零食。正如查尔斯·杜希格在《习惯的力量》一书中表明的那样,理解并控制由线索、日常、奖励组成的循环关系是成功的关键,不仅对个人,而且对企业甚至整个社会来说都是这样。

作为强化学习的创始人,里奇·萨顿是最具有热情的。对于他来说,强化学习就是终极算法,而且解决了这个问题就相当于解决了人工智能问题。但克里斯·沃特金斯却并不满意。他看到许多儿童能做但强化学习算法做不了的事:解决问题,经过几次尝试之后能更好 地解决问题,制订计划,获取逐渐抽象的知识。幸运的是,对于这些较高水平的能力,我们也有相应的学习算法,其中最重要的就是组块算法。

熟能生巧

1979年,艾伦·纽厄尔和保罗·罗森布鲁姆开始探索这个所谓的“幂法则”实践存在的原因。纽厄尔是人工智能的创始人之一,也是主要的认知心理学家,而罗森布鲁姆则是他在卡内基–梅隆大学的研究生之一。当时,没有哪个实践模式可以解释幂法则,纽厄尔和罗森布鲁姆怀疑这可能与组块有关。组块是一个来自感知与记忆心理学的概念。我们以组块的形式来感知并记住东西,而在任意给定的时间内(根据乔治·米勒的经典论文的结论为7±2),我们只能通过短暂记忆来记住这么多组块。关键是将信息聚集成组块可以让我们处理得更多,否则我们处理不了那么多信息。这就是电话号码有连字符的原因:1–723–458–3897比 17234583897要好记得多。赫伯特·西蒙(纽厄尔的长期合作伙伴以及人工智能的共同创始人)早期已经发现,新棋手和专业棋手的主要区别在于,新棋手一次记一个象棋位置,而专业棋手则看到涉及多个位置、更大的模式。要提高国际象棋技能主要涉及获取更多、更大这样的组块。纽厄尔和罗森布鲁姆假设,在掌握所有技能而不仅仅是下棋技能中,类似的过程在起作用。

学会关联

关联学习有悠久的历史,其历史可以至少追溯到20世纪70年代,以及符号学派技巧(如 逆向演绎)。但随着互联网的出现,它需要新的动力。突然之间,网络变得无处不在,而对网络进行模仿变得刻不容缓。我发现有一个特别有趣的现象——口碑传播。信息如何在社交网络中传播?我们可否测量每个成员的影响力,然后将目标确定在数量够多、影响力最大的成员身上,以开启一轮口头传播?我和学生里特·理查森一起设计了一种算法就能够做到这一点。我们将其运用到Epinions网页(一个产品评论网站)上,可以允许成员说出他们信任谁的评论。研究发现之一是,向单个最有影响力的成员营销产品(该成员被许多拥护者的信任,而这些拥护者也被自身的拥护者信任等)和对1/3的所有成员进行推销相比,效果是一样的。随之而来的是一大批关于此问题的研究。此后,我就已经开始将关联学习应用到其他许多领域,包括预测谁会在社交网络中形成链接、整合数据库、使机器人能够绘制周围环境的地图。

就像人类的记忆,关联学习编织了一个丰富的关联网。它连接认知,诸如罗比之类的机器人可以通过聚类和维数简约来获取认知并习得技能。它可以通过强化和聚类来学习,利用由阅读得来的更高水平的知识去学校与人类进行互动。关联学习是最后一块拼图,也是我们需要为自己的炼金术提供的最后的原料。

注:摘自原书中文版(百度云下载PDF) 第八章