终极算法 第十章 建立在机器学习之上的世界

终极算法 第十章 摘要

就像《黑客帝国》中的红色药丸一样,终极算法是通往不同现实状况的大门:你已经生 存在这个现实当中,但对它还不了解。从约会到上班、从自我认知到社会的未来、从数据分 享到战争、从人工智能的危险到进化的下一步,新的世界正在形成,而机器学习是解锁这个 世界的钥匙。本章将会有助于你在生活中充分利用机器学习,然后为即将到来的东西做好准 备。机器学习不会单独决定未来,这和其他技术一样,真正重要的是我们用它决定要做的 事,现在你有了用于决定的工具。

在未来10年,机器学习会大范围影响人类的生活,只用一本书的一个章节无法描述清 楚。

性、谎言和机器学习

生活就是你和包围你的学习算法之间的游戏。你要么拒绝参与 游戏,那么你就得在21世纪过20世纪的生活;要么从游戏中获胜。你想让你的计算机拥有你 的哪个模型?为了产生那个模型,你能给它什么数据?当你和一种学习算法互动时,脑子里 就应该一直思考这两个问题,就像你和其他人互动时一样。

网上约会实际上是一个有点难以理解的例子,因为化学反应难以预测。两个在约会中合 得来的人,可能最后会相爱,并坚信他们就是天生一对。但如果他们最初话不投机,可能会 觉得对方烦人,不想再见面了。真正复杂的学习算法所做的,就是在每对似乎合理的一对情 侣之间进行1000次蒙特卡洛模拟,然后通过那部分结果还不错的约会对这些情侣进行排名。 简而言之,约会网站可以组织派对,并邀请那些对很多人来说可能会成为其伴侣的人,让他 们在几个小时之内就完成需要几周完成的事情。

对于我们那些热衷于网上约会的人来说,更即时有用的办法就是选择记录哪些互动,以 及在哪里记录。如果你不想让亚马逊对你的圣诞节购物品位产生疑惑,请在其他网站上进行 (对不起了,亚马逊)。如果你在家看不同种类的视频,为了工作,在YouTube上保留两个 账号,在家一个,工作时一个,YouTube会学着做出相应的推荐。如果你打算看一些一般不 会感兴趣的视频,就先退出账号。使用谷歌浏览器的无痕模式,目的不是为了非法浏览(当 然,你绝不会这么做),而是因为你不想让当前搜索影响到未来的个性化定制。在网飞上, 利用你的账号来为不同的人添加简介,这样可以使你在家庭电影之夜免于R级片(即限制性 影片)推荐。如果你不喜欢某家公司,可以点击它的广告,这样不仅能够即时花费它的钱, 通过为那些不太可能购买产品的人展示广告,还可以教会谷歌来再次浪费它的钱。如果你有 非常特殊的搜索项,想让谷歌未来能够准确回答,那么花点时间来查阅后来显示结果的页 面,看看有没有相关链接,然后点击链接。较为普遍的是,如果一个系统不断向你推荐错误 的东西,通过找到并点击多个准确链接的方式来试图调教系统,然后返回来看看它是否起作 用了。

数码镜子

也许第一件你想让自己的模型完成的事就是代表你与世界妥协,使它在 网络空间放松下来,同时为你寻找各种各样的事物。从世界上所有的书中,它会给你推荐十 几本你接下来可能想阅读的书,见解比亚马逊能想到的还要好。对于电影、音乐、游戏、衣 服、电子产品来说,道理也一样——应有尽有。它可以让你的冰箱一直处于装满的状态,这 是毫无疑问的。它可以对你的文本邮件、语音邮件、脸书帖子、推特信息进行过滤,而且在 合适的时候会代表你回复这些消息。它还会为你处理生活中的所有小烦恼,比如查看信用卡 账单、拒绝乱收费、做计划、更新订阅、填写纳税申报单。它会为你的疾病找到治疗方法, 由你的医生来管理该方法,并从沃尔格林公司预订。它会让你注意到有意思的工作机会、提 议度假胜地、建议你该为哪个候选人投票、寻找潜在的约会对象。另外,你和约会对象成功 配对以后,它会与你约会对象的模型合作,为你们两人挑选彼此都喜欢的餐厅。这时事情才 真正开始变得有意思起来。

充满模型的社会

一段相互关系中的每一方都会向世界模型学习,并将其学到的东西运用到 下一段相互关系中。你有每个和你有过相互关系的人以及组织的模型,而他们也会有你的模 型。随着模型的改善,它们之间的相互关系就会变得越来越像你在真实世界中的相互关系一 样——除了高出几百万倍的速度以及存在于硅片中之外。未来的网络空间会是一个巨大的平 行世界,只会选择最有希望的东西在真实世界中进行试验,它就像一种新的全球性意识和人 类身份。

分享与否?方式、地点如何?

当今你的数据可以分成四种:你和所有人分享的数据,你和朋友或者同事分享的数据, 你和各种公司(不论是否有意)分享的数据,以及你不与别人分享的数据。第一种数据包括 Yelp(美国最大的点评网站)、亚马逊、猫途鹰上的评论、易趣网的反馈评分、领英的简 历、博客、推文等。这类数据价值巨大,是四类数据中问题最少的一类。你真的想让每个人 都能用到这些数据,每个人也会从中受益。唯一的问题在于,掌握这些数据的公司不一定会 允许对它们进行大量下载,以便用于构建模型。它们应该允许下载行为。时下你可以去猫途 鹰,查看你正在考虑入住的指定酒店的评论和星级评分,但如果要查看酒店总体上是好还是 坏的模型呢,而通过该模型,你可以对当前有极少可靠评论的酒店进行评分?猫途鹰可以掌 握该模型,但如果你想要一个决定你对酒店感觉好坏的模型呢?这就需要关于你的,但你不 想和猫途鹰分享的数据。你想要的,就是一个可信赖的、能将两类数据结合起来,并能给你 结果的一方。

掌握数据的你和数据联盟的公司的样子,对我来说,看起来就像是在未来社会数据变得 成熟一样。我们是否能到达那里有待研究。当下,多数人没有意识到有多少关于他们的数据 正在被收集,以及潜在的代价和利益是什么。各家公司满足于继续神秘地完成这件事,因为 担心引发谴责。但谴责迟早会发生,在后续的争论中,会制定更加严苛的法律,最后对谁都 没有好处。最好让人们现在树立意识,选择该分享什么、不该分享什么,以及如何、在哪里 分享。

神经网络抢了我的工作

随着自动化与非自动化工作跨越经济领域,我们可能会看到失业率渐渐增长,越 来越多的行业薪水下探,无法自动化的行业越来越少,但报酬却越来越高。当然,这种情况 已经发生,但路还很长。

战争不属于人类

和所有武器一样,自己拥有机器人,比信任另一方认为不该有机器人更安全。如果在 未来战争中,数百万架神风系列遥控飞机将会在几分钟之内摧毁传统的军队,它们最好是我 们的遥控飞机。如果第三次世界大战会在数秒内结束,也就是一方控制另一方的系统,我们 最好还是具备更加智能、更加快速、更加有复原力的网络。

谷歌+终极算法=天网?

备有终极算法的人工智能接管世界的概率是零。原因很简单:不像人类,计算 机本身并没有自己的意志。它们是工程师生产的产品,而不是进化体。即使无限强大的计算 机,也仅仅是我们意志的延伸,没什么可怕的。回忆一下每种学习算法的三个组成部分:表 示方法、评估、优化。学习算法的表示方法限制了它能学习的内容。让我们把它想象成很强 大的学习算法,比如马尔科夫逻辑,那么该学习算法原则上可以学习任何东西。接着最优化 器会在其权力范围内,做所有工作来将评估功能最大化——不多也不少——而评估功能“是 由我们决定的”。一台更强大的计算机只会把它优化得更好。掌握的系统如果过去不按照我 们想要的来做事,那么它就会严重不适合,因此就会消失。实际上,那些一代接一代、能稍 微更好地服务我们的系统会呈现多样化并接管基因库。当然,如果我们愚蠢到故意对计算机 进行编程,让其凌驾于我们之上,那么我们就该被统治。

这并不意味着没有什么可以担心了。最大的忧虑是,和所有技术一样,人工智能 可能会落入不法之徒手里。如果罪犯或者搞恶作剧的人对人工智能进行编程,用于统治世 界,我们最好有人工智能警察局来抓住他们,并消灭他们以防其逍遥法外。为了避免庞大的 人工智能变得疯狂,最佳的保险措施就是有更庞大的人工智能来维护和平。

进化的第二部分

即使当今计算机还不是非常智能,但无疑它们的智力却在快速提升。早在1965年,I·J· 古德英国(一位统计学家以及阿兰·图灵在第二次世界大战中密码破解项目上的伙伴)就推 测到即将到来的“智能爆炸”。古德指出,如果我们可以设计出比自己还要智能的机器,反过 来,它们也可以设计出比它们更加智能的机器,就这样无休止继续下去,让人类智能落在后 面。在1993年的一篇文章中,弗诺·文奇将其命名为“奇点”。这个概念经过雷·库兹韦尔得到 最大推广,他在《奇点临近》中指出,不仅仅奇点不可避免,而且机器智能超越人类智能的 时刻(让我们称之为“反观点”)也将会在未来几十年到达。

我们所处的轨道不是奇点,而是相变。它的临界点——反观点——当机器学习赶上自然 多样化时,反观点就会到来。自然学习法本身已经经历了三个阶段:进化、大脑、文化。每 个阶段都是前一个阶段的产物,而且每个阶段都会学得更快。机器学习逻辑上是该进程的下 一阶段。计算机程序是世界上最快速的复制者:复制它们只需要不到一秒,但创造它们却比 较缓慢(如果这件事由人类完成)。机器学习克服了瓶颈期,留下最后一个:人类可接受改 变的速度。这个到最后也会被克服,但并不是因为我们决定将东西移交给我们的“智能后 代”,正如汉斯·莫拉维克所称呼的那样,然后温柔地走进美好的夜晚。人类并不是生命之树 上垂死的枝丫,相反,我们开始出现分支。

后记

现在你已了解了机器学习的秘密。将数据变为知识的机器不再是一个黑匣子:你知道魔 法是如何发生的,以及它能做什么、不能做什么。你已经遇到复杂性怪兽、过拟合难题、维 数灾难、探索与开发困境。你大体上知道了谷歌、脸书、亚马逊和所有其他网站把你每天慷 慨提供给它们的数据用来做了什么,它们为什么能帮你找到东西、过滤垃圾,且不断改善它 们的服务。你已经看到,在世界机器学习研究实验室里正酝酿什么,你可以旁观他们正在创 造的未来。你已经看到机器学习的五大学派以及它们的主算法:符号学派和逆向演绎,联结 学派和逆向传播,进化学派和遗传算法,贝叶斯学派和概率推理,类推学派和支持向量机。 因为你已经遍历广阔的区域,协调跨越边境,爬到顶峰,和很多机器学习算法相比,你能更 好地欣赏风景,而那些学习算法只能在其领域中每日艰苦工作。你可以看到共同主题流淌在 这片土地上,就像一条地下河流,并且你还明白,这五种学习算法,表面上看差别很大,其 实也只是单一通用学习算法的五个方面。

旅程还远远没有结束。我们还没有终极算法,只是瞥到它可能长什么样。如果某些基本 的东西还找不到,有些东西沉浸在其历史当中,而我们在本领域中无法看到,那会怎么样 呢?我们需要一些与之前想法不一样的新想法。这就是我写本书的原因——让你开始思考。 我在华盛顿大学关于机器学习的夜校教课。2007年,网飞大奖宣布后不久,我提议将其作为 班级项目中的一个。我班上的一位学生——杰夫·霍伯特被它迷住了,并在课程结束时继续 钻研这个项目。在他第一次了解机器学习的两年之后,他最终成为获胜组的成员,当时总共 有两个获胜组。现在轮到你了。你可以从UCI数据库上下载一些数据集 (archive.ics.uci.edu/ml/)并开始这场比赛。当你做好准备时,可以对Kaggle.com进行了解, 这是一个专门组织管理机器学习比赛的网站,然后挑一两个链接并点击进入。当然,如果你 招募一两个朋友来和你一起工作,那样会更好玩。如果你也着迷了,就像杰夫那样,最后变 成一个专业的数据科学家,那么欢迎进入世界上最让人陶醉的领域。如果你发现自己不满意 于当前的学习算法,那就发明新的算法——或者只是出于好玩而发明。我最殷切的希望就 是,你对这本书的反应,就像我对读的第一本人工智能书的反应一样,这已经过去20多年: 这个领域有太多的事情要做,我不知道从何开始。如果有一天你发明了终极算法,请不要带 着它跑到专利局,而是开放资源。终极算法应被任何人或者组织拥有,这一点太重要了。它 应用的速度会比你为它申请许可的速度要快。但如果你打算创业,记得让每个世界上的男 人、女人、孩子都能享受它。

无论是出于好奇,还是专业兴趣,你读了这本书,我希望和你的朋友、同事分享你学到 了什么。机器学习接触到我们每个人的生活,而我们想用它来做什么也由自己决定。带着你 对机器学习的新了解,你现在处于更好的位置来思考诸如隐私、数据分享、工作的未来、机 器人之间的战争、人工智能的承诺与危险之类的问题;而且了解到这一点的人越多,我们越 有可能避免圈套,并找到正确的路。这也是我写本书另外一个主要原因。统计学家知道做预 测不容易,尤其是对未来的预测,而计算机科学家知道预测未来的最佳方法就是创造未来, 但未经检验的未来不值得创造。

感谢你让我做你的向导。我想送给你一份临别礼物。牛顿说过,他就像一个在沙滩上玩 耍的男孩,这边捡一枚鹅卵石,那边捡一块贝壳,而真理的大海就在他面前,等着他去发 现。300年后,我们已经收集了一些了不得的鹅卵石和贝壳,但大片未被发现的海洋仍然延 伸至远处,闪烁着希望的光辉。我的礼物就是一艘船——机器学习。现在该是时候扬帆起航 了!

延伸阅读

为了让广大读者更深入地探索机器学习世界,我们特此附上延伸阅读部分。此部分包含 大量文献,对读者深入学习大有裨益。同时,为了保证准确性,我们保持了此部分中涉及的 人名、文献、出版信息等内容的原貌,以飨读者。希望读者朋友能通过本书和这些文献进入 丰富多彩的机器学习世界。

如果本书激发了你对机器学习及其相关问题的兴趣,那么在本部分你会找到许多建议。 本书的目的不是面面俱到,而是为了引导人们了解与机器学习相关的知识(正如Borges说的 那样)。我尽量为读者选择合适的书籍和文章。专业类出版物的阅读至少需要一些计算、统 计或者数学领域的背景知识,我们会以星号(*)来标记这些出版物。即使这些是专业出版 物,对读者来说也可以接受很大一部分。我没有把卷号、期刊号、页码列出来,因为网站使 这些变得多余,对于出版商的地址来说也同样如此。

如果你想从整体上对机器学习了解更多,网络课程就是开始学习的好选择。并非巧合, 与本书内容最为相近的就是我教的这门课。也可以参考安德鲁·恩格的课程亚瑟·阿布·穆斯塔法的课程。接下来就要阅读教材。和本书最相近且最容易接受的一本教材就是Tom Mitchell的Machine Learning (McGraw–Hill, 1997)。更现代且更精 确的教材包括Kevin Murphy的Machine Learning: A Probabilistic Perspective (麻省理工出版 社,2012), Chris Bishop的 Pattern Recognition and Machine Learning(Springer, 2006), 以及An Introduction to Statistical Learning with Application in R (作者是Gareth James、 Daniela Witten、Trevor Hastie、Rob Tibshirani,Springer, 2013)。我的文章“A few useful things to know about machine learning ”(Communications of the ACM, 2012)总结了一些关于机器学 习的传统知识,这些知识在教材中往往较为隐晦,且可作为开始阅读本书之前的参考资料。 如果你懂得如何编程,并想尝试机器学习,可以从众多开源软件包开始,例如, Weka(www.cs.waikato.ac.nz/ml/weka)。有两本重要的机器学习杂志:《Machine Learning 》和《Journal of Machine Learning Research 》。每年举办的机器学习的重要会议包括机器学 习国际会议(International Conference on Machine Learning)、国际神经信息处理大会 (Conference on Neural Information Processing Systems)、国际学术和技术开发研讨会 (International Conference on Knowledge Discovery and Data Mining)。在http://videolectures.net 上有众多关于机器学习的访谈。网站www.KDnuggets.com是机器学习的一站式服务店,你可 以注册账号,获得实时通信,了解最新发展动态。

注:摘自原书中文版(百度云下载PDF) 第十章